22.12.2013 Views

Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...

Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...

Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

SI-TAL<br />

<strong>Treebank</strong> <strong>Sintattico</strong>-<strong>Semantica</strong><br />

dell’Italiano<br />

Linea 1.3<br />

Manule operativo e valutazione della <strong>Treebank</strong><br />

-<br />

Manuale d'uso del software<br />

* *<br />

Consorzio Pisa Ricerche - (CPR)<br />

Consorzio Venezia Ricerche - (CVR)<br />

<strong>Istituto</strong> Trentino <strong>di</strong> Cultura - <strong>Istituto</strong> per la Ricerca Scientifica e<br />

Tecnologica - (ITC-irst)<br />

Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni<br />

Informatiche - (CERTIA)<br />

Synthema


Co<strong>di</strong>ce linea e Tema<br />

Sommario<br />

1 INTRODUZIONE.......................................................................................................9<br />

2 LA TREEBANK DI SI-TAL: RISULTATI DELL’ANNOTAZIONE...........................10<br />

2.1 Il corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL: composizione interna e livelli <strong>di</strong> annotazione.............................. 10<br />

2.2 Annotazione sintattica a costituenti ........................................................................................................... 12<br />

2.2.1 Risultati..................................................................................................................................................... 12<br />

2.2.2 Metodologia <strong>di</strong> annotazione...................................................................................................................... 12<br />

2.3 Annotazione sintattico-funzionale.............................................................................................................. 13<br />

2.3.1 Risultati..................................................................................................................................................... 13<br />

2.3.2 Metodologia <strong>di</strong> annotazione...................................................................................................................... 13<br />

2.4 Annotazione semantico-lessicale................................................................................................................. 14<br />

2.4.1 Risultati..................................................................................................................................................... 14<br />

2.4.2 Metodologia <strong>di</strong> annotazione...................................................................................................................... 16<br />

2.4.3 Annotazione e risorsa lessicale <strong>di</strong> riferimento .......................................................................................... 17<br />

2.4.4 Interazione tra i siti in carico dell'annotazione semantico-lessicale: CPR e IRST.................................... 17<br />

2.4.5 Interazione tra annotatori IRST-CPR e co<strong>di</strong>ficatori IWN......................................................................... 18<br />

2.4.6 Considerazioni e commenti finali ............................................................................................................. 19<br />

3 ANNOTAZIONE ORTOGRAFICA E MORFO-SINTATTICA ..................................19<br />

3.1 Annotazione ortografica.............................................................................................................................. 19<br />

3.2 Annotazione morfo-sintattica ..................................................................................................................... 20<br />

3.2.1 Annotazione <strong>di</strong> parole ortografiche morfologicamente complesse........................................................... 21<br />

3.2.2 Annotazione <strong>di</strong> espressioni polilessicali ................................................................................................... 21<br />

4 SPECIFICHE DI ANNOTAZIONE PER IL LIVELLO SINTATTICO A COSTITUENTI<br />

22<br />

4.1 Teoria X-barra e costituenza sintattica...................................................................................................... 22<br />

4.2 Costituenti sintattici nello schema <strong>di</strong> annotazione <strong>di</strong> SI-TAL ................................................................. 22<br />

4.2.1 F................................................................................................................................................................ 23<br />

4.2.2 IBAR......................................................................................................................................................... 24<br />

4.2.3 SN ............................................................................................................................................................. 24<br />

4.2.4 SP.............................................................................................................................................................. 25<br />

4.2.5 SPDA ........................................................................................................................................................ 25<br />

4.2.6 SPD........................................................................................................................................................... 26<br />

4.2.7 SA ............................................................................................................................................................. 26<br />

4.2.8 SAVV ....................................................................................................................................................... 26<br />

4.2.9 SQ ............................................................................................................................................................. 26<br />

4.2.10 SV2 ...................................................................................................................................................... 27<br />

4.2.11 SV3 ...................................................................................................................................................... 28<br />

4.2.12 SV5 ...................................................................................................................................................... 28<br />

4.2.13 F2 ......................................................................................................................................................... 28<br />

4.2.14 F3 ......................................................................................................................................................... 29<br />

4.2.15 FINT..................................................................................................................................................... 29<br />

4.2.16 FAC...................................................................................................................................................... 29<br />

4.2.17 COMPT................................................................................................................................................ 29<br />

4.2.18 COMPIN.............................................................................................................................................. 30<br />

2


Co<strong>di</strong>ce linea e Tema<br />

4.2.19 COMPC................................................................................................................................................ 31<br />

4.2.18 COORD................................................................................................................................................ 31<br />

4.2.19 FC......................................................................................................................................................... 32<br />

4.2.20 FP......................................................................................................................................................... 33<br />

4.2.21 CP......................................................................................................................................................... 33<br />

4.2.22 FS e CP ................................................................................................................................................ 34<br />

4.2.23 CP_INT................................................................................................................................................ 36<br />

4.2.24 DIRSP .................................................................................................................................................. 36<br />

4.3 Tipologia dei costituenti sintattici della <strong>Treebank</strong> <strong>di</strong> SI-TAL ................................................................. 36<br />

4.3.1 Costituenti Funzionali Strutturali.............................................................................................................. 37<br />

4.3.2 Costituenti Funzionali Lessicali................................................................................................................ 38<br />

4.3.3 Costituenti Sostanziali .............................................................................................................................. 38<br />

4.4 Criteri <strong>di</strong> annotazione.................................................................................................................................. 38<br />

4.4.1 Costituenti minori, Mo<strong>di</strong>ficatori e Marcatori Semantici........................................................................... 39<br />

4.4.2 Costituenti vuoti........................................................................................................................................ 39<br />

4.4.3 Clitici ........................................................................................................................................................ 40<br />

4.4.4 Il “SI” espletivo: inerente, passivante, me<strong>di</strong>o e impersonale....................................................................40<br />

4.4.5 Preposizioni e SP ...................................................................................................................................... 40<br />

4.4.6 Modali e costruzioni perifrastiche <strong>di</strong> varia natura (aspettuali, causativi).................................................. 40<br />

5 ANNOTAZIONE FUNZIONALE..............................................................................41<br />

5.1 Specifiche <strong>di</strong> annotazione............................................................................................................................ 41<br />

5.1.1 Tipologia delle relazioni funzionali .......................................................................................................... 41<br />

5.1.1.1 Relazioni <strong>di</strong> <strong>di</strong>pendenza .................................................................................................................. 42<br />

5.1.1.1.1 Inventario delle relazioni <strong>di</strong> <strong>di</strong>pendenza .................................................................................... 43<br />

5.1.1.1.2 Tratti associati agli elementi della relazione <strong>di</strong> <strong>di</strong>pendenza....................................................... 48<br />

5.1.1.1.2.1 Tratti <strong>di</strong>stintivi del DIPENDENTE ......................................................................................... 48<br />

5.1.1.1.2.2 Tratti <strong>di</strong>stintivi della TESTA ................................................................................................ 50<br />

5.1.1.1.2.3 Tratti <strong>di</strong>stintivi della TESTA e del DIPENDENTE ................................................................... 52<br />

5.1.1.2 Relazioni simmetriche <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione .................................................................. 52<br />

5.1.1.2.1 Tratti <strong>di</strong>stintivi del partecipante in relazioni simmetriche.......................................................... 53<br />

5.1.1.3 Relazioni <strong>di</strong> coreferenza.................................................................................................................. 53<br />

5.2 Criteri <strong>di</strong> annotazione per il livello funzionale.......................................................................................... 54<br />

5.2.1 Distinzione tra argomenti e mo<strong>di</strong>ficatori .................................................................................................. 55<br />

5.2.2 Costruzioni <strong>di</strong> base.................................................................................................................................... 56<br />

5.2.2.1 Costruzioni con verbo intransitivo .................................................................................................. 56<br />

5.2.2.2 Costruzioni con verbo intransitivo inaccusativo ............................................................................. 57<br />

5.2.2.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto ...................................................................... 57<br />

5.2.2.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto ................................................................... 57<br />

5.2.2.5 Costruzioni con verbo transitivo con complemento obliquo........................................................... 57<br />

5.2.2.6 Costruzioni passive ......................................................................................................................... 57<br />

5.2.2.7 Costruzioni con completive sottocategorizzate ............................................................................... 58<br />

5.2.2.8 Costruzioni con interrogative in<strong>di</strong>rette............................................................................................ 59<br />

5.2.2.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)..................................... 60<br />

5.2.2.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto............................................. 60<br />

5.2.2.11 Complementazione <strong>di</strong> nomi e aggettivi........................................................................................... 62<br />

5.2.2.12 Negazione........................................................................................................................................ 63<br />

5.2.2.13 Costruzioni esistenziali.................................................................................................................... 63<br />

5.2.3 Costruzioni coor<strong>di</strong>nate.............................................................................................................................. 63<br />

5.2.4 Costruzioni ellittiche................................................................................................................................. 65<br />

5.2.4.1 Ellissi del soggetto .......................................................................................................................... 65<br />

5.2.4.2 Ellissi del verbo............................................................................................................................... 66<br />

5.2.4.3 Ellissi in costruzioni verbali perifrastiche ....................................................................................... 67<br />

5.2.5 Annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza ................................................................................................... 67<br />

5.2.6 Casi particolari <strong>di</strong> costruzioni pre<strong>di</strong>cative................................................................................................. 68<br />

5.2.7 Costruzioni causative................................................................................................................................ 68<br />

3


Co<strong>di</strong>ce linea e Tema<br />

5.2.8 Costruzioni partitive ................................................................................................................................. 69<br />

5.2.9 Annotazione delle costruzioni con superlativo e con strutture comparative............................................. 69<br />

5.2.9.1 Superlativi ....................................................................................................................................... 69<br />

5.2.9.2 Costruzioni comparative.................................................................................................................. 70<br />

5.2.10 Miscellanea .......................................................................................................................................... 71<br />

5.2.10.1 Annotazione delle date .................................................................................................................... 71<br />

5.2.10.2 Annotazione <strong>di</strong> car<strong>di</strong>nalità complessa ............................................................................................. 72<br />

5.2.10.3 Annotazione <strong>di</strong> nomi propri ............................................................................................................ 72<br />

5.2.10.3.1 Annotazione <strong>di</strong> nome e cognome............................................................................................. 72<br />

5.2.10.3.2 Annotazione <strong>di</strong> nomi propri composti...................................................................................... 72<br />

5.2.10.4 Annotazione <strong>di</strong> costruzioni appositive <strong>di</strong> vario tipo........................................................................ 72<br />

5.2.10.5 Annotazione degli incisi in testa agli articoli .................................................................................. 73<br />

5.2.10.6 Un caso particolare <strong>di</strong> congiunzione ............................................................................................... 73<br />

5.2.11 Problemi aperti..................................................................................................................................... 73<br />

5.3 Aspetti <strong>di</strong> annotazione con FunTAS........................................................................................................... 75<br />

5.3.1 Una nuova relazione funzionale: CONCAT ................................................................................................ 76<br />

5.3.2 Annotazioni transitorie al livello della descrizione in tratti dei partecipanti............................................. 76<br />

5.3.2.1 L'attributo INTRODUTTORE............................................................................................................... 76<br />

5.3.2.2 L'attributo DIATESI........................................................................................................................... 79<br />

5.3.3 Valori particolari per INTRODEP ................................................................................................................ 79<br />

6 SPECIFICHE DI ANNOTAZIONE PER IL LIVELLO SEMANTICO-LESSICALE...80<br />

6.1 L’annotazione semantico-lessicale: tipologia degli elementi.................................................................... 80<br />

6.2 L’annotazione semantico-lessicale: tratti descrittivi ................................................................................ 81<br />

6.2.1 dbref (database <strong>di</strong> riferimento).................................................................................................................. 82<br />

6.2.2 ns (numero <strong>di</strong> senso) ................................................................................................................................. 82<br />

6.2.3 lem (lemma).............................................................................................................................................. 82<br />

6.2.4 pos (parte del <strong>di</strong>scorso) ............................................................................................................................. 83<br />

6.2.5 alter(azione) .............................................................................................................................................. 83<br />

6.2.6 fig(urato)................................................................................................................................................... 83<br />

6.2.7 np (nome proprio) ..................................................................................................................................... 84<br />

6.2.8 tipousc (tipo <strong>di</strong> unità semanticamente complessa).................................................................................... 84<br />

6.2.9 tipolemma ................................................................................................................................................. 84<br />

6.2.10 tipot (tipo <strong>di</strong> titolo)............................................................................................................................... 85<br />

6.2.11 Altri tratti che possono essere usati nella definizione <strong>di</strong> unità <strong>di</strong> senso ............................................... 85<br />

6.2.11.1 nota.................................................................................................................................................. 85<br />

6.2.11.2 comm(ento) ..................................................................................................................................... 85<br />

6.2.12 Tabella sinottica dei tratti per l’annotazione semantico-lessicale ........................................................ 88<br />

6.3 Criteri <strong>di</strong> annotazione.................................................................................................................................. 88<br />

6.3.1 Alterati e aggettivi superlativi................................................................................................................... 88<br />

6.3.2 Nomi Propri .............................................................................................................................................. 89<br />

6.3.3 Parole Straniere......................................................................................................................................... 90<br />

6.3.4 Criteri <strong>di</strong> identificazione e <strong>di</strong> annotazione delle USC ................................................................................ 91<br />

6.3.4.1 Perché l’annotazione delle USC ....................................................................................................... 91<br />

6.3.4.2 Problemi nell’identificazione ed interpretazione delle USC............................................................. 92<br />

6.3.4.2.1 Identificazione degli elementi costitutivi delle USC ................................................................... 93<br />

6.3.4.3 Espressioni i<strong>di</strong>omatiche e composti ................................................................................................ 94<br />

6.3.4.3.1 Criteri <strong>di</strong> identificazione delle espressioni i<strong>di</strong>omatiche e dei composti ..................................... 95<br />

6.3.4.3.1.1 Sequenze senza verbo......................................................................................................... 95<br />

6.3.4.3.1.2 Sequenze con il verbo......................................................................................................... 96<br />

6.3.4.4 Espressioni con verbo supporto....................................................................................................... 97<br />

6.3.5 Criteri <strong>di</strong> annotazione delle UST................................................................................................................ 99<br />

6.3.6 Gli Usi Figurati ....................................................................................................................................... 100<br />

6.3.6.1 La Metafora................................................................................................................................... 100<br />

6.3.6.2 La Metonimia ................................................................................................................................ 101<br />

6.3.7 Terminologia........................................................................................................................................... 102<br />

4


Co<strong>di</strong>ce linea e Tema<br />

6.3.8 Casi <strong>di</strong> mancata corrispondenza tra la risorsa lessicale <strong>di</strong> riferimento e l’uso attestato.......................... 103<br />

6.3.8.1 Assenza del lemma........................................................................................................................ 103<br />

6.3.8.2 Assenza del senso rilevante <strong>di</strong> un lemma già presente in IWN ..................................................... 104<br />

6.3.9 Corrispondenza con più sensi dello stesso lemma .................................................................................. 104<br />

6.4 Aspetti <strong>di</strong> annotazione con SemTAS ........................................................................................................ 106<br />

6.4.1 Combinando più risorse lessicali <strong>di</strong> riferimento ..................................................................................... 106<br />

6.4.2 Annotazione <strong>di</strong> nomi propri polilessicali ................................................................................................ 106<br />

6.4.3 Annotazione <strong>di</strong> neologismi e voci <strong>di</strong>alettali............................................................................................ 107<br />

6.4.4 GesTALt/SemTAS vs XML ................................................................................................................... 107<br />

7 SVILUPPO DI GESTALT......................................................................................108<br />

7.1 Processo <strong>di</strong> sviluppo del software............................................................................................................. 108<br />

7.2 Architettura <strong>di</strong> GesTALt .......................................................................................................................... 110<br />

7.3 Funzionalità <strong>di</strong> GesTALt v3.0 .................................................................................................................. 114<br />

7.3.1 ValTAS................................................................................................................................................... 114<br />

7.3.2 Wrapper-out............................................................................................................................................ 119<br />

7.3.3 SSParser.................................................................................................................................................. 122<br />

8 VALUTAZIONE.....................................................................................................123<br />

8.1 Mo<strong>di</strong>fiche al <strong>di</strong>zionario.............................................................................................................................. 125<br />

8.1.1 Derivanti dalla sintassi............................................................................................................................ 125<br />

8.1.1.1 Reggenze....................................................................................................................................... 125<br />

8.1.1.2 Testa nominale .............................................................................................................................. 125<br />

8.1.1.3 Testa verbale ................................................................................................................................. 126<br />

8.1.1.4 Espressioni polilessicali ................................................................................................................ 126<br />

8.1.1.5 Dipendenza in<strong>di</strong>retta con testa nominale....................................................................................... 127<br />

8.1.1.6 Dipendenza in<strong>di</strong>retta con testa verbale..........................................................................................128<br />

8.1.1.7 Dipendenza <strong>di</strong>retta con testa nominale.......................................................................................... 129<br />

8.1.1.8 Dipendenza <strong>di</strong>retta con testa verbale............................................................................................. 129<br />

8.1.1.9 Specifiche consultazioni................................................................................................................ 130<br />

8.1.2 Derivanti dalla semantica........................................................................................................................ 131<br />

8.1.2.1 Inserimento dei semantic type <strong>di</strong>sponibili..................................................................................... 131<br />

8.1.2.2 Nuovo semantic type..................................................................................................................... 132<br />

8.1.2.3 Derivanti dalla semantica in combinazione con la sintassi............................................................ 132<br />

8.2 Mo<strong>di</strong>fiche alla grammatica ....................................................................................................................... 132<br />

8.2.1 Raffinamento delle regole per la costruzione dell'albero........................................................................133<br />

8.2.1.1 Participi interpretati come aggettivi .............................................................................................. 133<br />

8.2.1.2 Quanto........................................................................................................................................... 134<br />

8.2.1.3 Lo - pre<strong>di</strong>cato preposto.................................................................................................................. 134<br />

8.2.1.4 Aggettivi come incisi..................................................................................................................... 134<br />

8.2.1.5 Quest'ultimo .................................................................................................................................. 135<br />

8.2.1.6 Prima ancora che ........................................................................................................................... 135<br />

8.2.2 Raffinamento delle regole <strong>di</strong> cancellazione ............................................................................................ 136<br />

8.2.2.1 Sostantivi interpretati come verbi.................................................................................................. 136<br />

8.2.2.2 Più ................................................................................................................................................. 137<br />

8.2.2.3 Come ............................................................................................................................................. 137<br />

8.2.3 Mo<strong>di</strong>fica delle preferenze e delle restrizioni........................................................................................... 137<br />

8.2.3.1 Sono............................................................................................................................................... 138<br />

8.2.3.2 Ieri ................................................................................................................................................. 138<br />

8.2.3.3 Dopo.............................................................................................................................................. 138<br />

8.3 Mo<strong>di</strong>fiche al transfer................................................................................................................................. 139<br />

8.3.1 Lo - pre<strong>di</strong>cato preposto .......................................................................................................................... 139<br />

5


Co<strong>di</strong>ce linea e Tema<br />

8.3.2 Subor<strong>di</strong>nate infinitive ............................................................................................................................. 139<br />

8.3.3 Milioni/miliar<strong>di</strong> <strong>di</strong>…............................................................................................................................... 139<br />

8.3.4 Mesi ........................................................................................................................................................ 140<br />

8.4 Mo<strong>di</strong>fiche all'interfaccia software............................................................................................................ 140<br />

8.5 Osservazioni ............................................................................................................................................... 141<br />

8.5.1 Ricerche infruttuose................................................................................................................................ 141<br />

8.5.2 Analisi del lavoro svolto ......................................................................................................................... 141<br />

RIFERIMENTI BIBLIOGRAFICI..................................................................................143<br />

APPENDICI .................................................................................................................148<br />

APPENDICE 1 - ANNOTAZIONE A COSTITUENTI: RAPPRESENTAZIONE IN XML<br />

.........................................................................................................................................149<br />

1 DTD.......................................................................................................................149<br />

1.1 L’elemento .................................................................................................................................... 149<br />

1.2 L’elemento .................................................................................................................................... 151<br />

1.3 L’elemento ................................................................................................................................... 152<br />

APPENDICE 2 - ANNOTAZIONE FUNZIONALE: RAPPRESENTAZIONE IN XML ..153<br />

2 DTD.......................................................................................................................153<br />

2.1 L’elemento (partecipante) ............................................................................................ 153<br />

2.1.1 quantificazione........................................................................................................................................ 155<br />

2.1.2 car<strong>di</strong>nalita ............................................................................................................................................... 155<br />

2.1.3 definitezza............................................................................................................................................... 155<br />

2.1.4 aux .......................................................................................................................................................... 156<br />

2.1.5 perifra...................................................................................................................................................... 156<br />

2.1.6 introdep................................................................................................................................................... 157<br />

2.1.7 caso ......................................................................................................................................................... 157<br />

2.1.8 status ....................................................................................................................................................... 157<br />

2.1.9 ruolo........................................................................................................................................................ 158<br />

2.1.10 modo .................................................................................................................................................. 160<br />

2.1.11 <strong>di</strong>at ..................................................................................................................................................... 162<br />

2.1.12 syn_form ............................................................................................................................................ 162<br />

2.1.13 reflex .................................................................................................................................................. 163<br />

2.1.14 pers..................................................................................................................................................... 163<br />

2.1.15 num .................................................................................................................................................... 164<br />

2.1.16 gen...................................................................................................................................................... 164<br />

2.1.17 introsim .............................................................................................................................................. 164<br />

2.1.18 partec_id............................................................................................................................................. 165<br />

2.1.19 href ..................................................................................................................................................... 165<br />

2.2 L’elemento (relazione funzionale) ............................................................................ 167<br />

2.2.1 relazionefunzionale................................................................................................................................. 167<br />

2.2.2 partidrefs................................................................................................................................................. 167<br />

2.2.3 relfunctid................................................................................................................................................. 168<br />

2.3 L’elemento .............................................................................................................. 168<br />

6


Co<strong>di</strong>ce linea e Tema<br />

3 ESEMPI ................................................................................................................169<br />

3.1 Costruzioni con verbo intransitivo........................................................................................................... 169<br />

3.2 Costruzioni con verbo intransitivo inaccusativo..................................................................................... 170<br />

3.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto ............................................................................. 171<br />

3.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto ..........................................................................172<br />

3.5 Costruzioni con verbo transitivo con complemento obliquo.................................................................. 173<br />

3.6 Costruzioni passive.................................................................................................................................... 173<br />

3.7 Costruzioni con completive sottocategorizzate ....................................................................................... 175<br />

3.8 Costruzioni con interrogative in<strong>di</strong>rette.................................................................................................... 176<br />

3.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)........................................... 176<br />

3.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto.................................................... 177<br />

3.11 Complementazione <strong>di</strong> nomi e aggettivi .................................................................................................... 178<br />

3.12 Negazione.................................................................................................................................................... 179<br />

3.13 Costruzioni esistenziali.............................................................................................................................. 179<br />

3.14 Costruzioni coor<strong>di</strong>nate .............................................................................................................................. 180<br />

3.15 Con<strong>di</strong>visione <strong>di</strong> complementi in costruzioni coor<strong>di</strong>nate......................................................................... 183<br />

3.16 Ellissi del soggetto...................................................................................................................................... 183<br />

3.17 Ellissi del verbo .......................................................................................................................................... 184<br />

3.18 Relazioni <strong>di</strong> coreferenza............................................................................................................................ 185<br />

3.19 Car<strong>di</strong>nalità complessa ............................................................................................................................... 185<br />

3.20 Nomi propri................................................................................................................................................ 185<br />

3.21 Costruzioni pre<strong>di</strong>cative particolari .......................................................................................................... 186<br />

3.22 Costruzioni causative ................................................................................................................................ 187<br />

3.23 Costruzioni partitive.................................................................................................................................. 187<br />

3.24 Superlativo assoluto................................................................................................................................... 188<br />

3.25 Superlativo relativo ................................................................................................................................... 188<br />

APPENDICE 3 - ANNOTAZIONE SEMANTICO-LESSICALE: RAPPRESENTAZIONE<br />

IN XML.............................................................................................................................190<br />

1 INTRODUZIONE...................................................................................................190<br />

7


Co<strong>di</strong>ce linea e Tema<br />

2 ELEMENTI DI MARKUP.......................................................................................190<br />

2.1 ............................................................................................................................................... 190<br />

2.2 :unità semantica semplice ............................................................................................................ 191<br />

2.2.1 ussid ........................................................................................................................................................ 193<br />

2.2.2 href.......................................................................................................................................................... 193<br />

2.2.3 dbref........................................................................................................................................................ 194<br />

2.2.4 numero_senso ......................................................................................................................................... 195<br />

2.2.5 tipolemma ............................................................................................................................................... 195<br />

2.2.6 alterazione............................................................................................................................................... 195<br />

2.2.7 figurato.................................................................................................................................................... 196<br />

2.2.8 nome_proprio.......................................................................................................................................... 196<br />

2.2.9 commento ............................................................................................................................................... 197<br />

2.2.10 nota..................................................................................................................................................... 197<br />

2.3 :unità semantica <strong>di</strong> tipo complesso.............................................................................................. 197<br />

2.4 :unità semantica <strong>di</strong> tipo titolo ...................................................................................................... 198<br />

3 DTD.......................................................................................................................199<br />

8


Co<strong>di</strong>ce linea e Tema<br />

1 Introduzione<br />

L'obiettivo previsto per la linea <strong>di</strong> ricerca 1.3 del tema “<strong>Treebank</strong> sintattico-semantica dell’italiano”<br />

consisteva nella produzione della risorsa finale, ed in modo particolare:<br />

• nel completamento della risorsa linguistica annotata ai livelli sintattici, a costituenti e<br />

funzionale, e semantico-lessicale attraverso l’estensione del primo prototipo sviluppato<br />

nell’ambito della Linea 1.2, fino alla copertura <strong>di</strong> circa 80.000 parole (tokens) per<br />

l’annotazione a costituenti, <strong>di</strong> circa 300.000 per l’annotazione funzionale, e <strong>di</strong> circa 80.000<br />

per l’annotazione semantico-lessicale;<br />

• nella realizzazione della versione finale <strong>di</strong> GesTALt, il sistema <strong>di</strong> applicazioni software <strong>di</strong><br />

supporto alla creazione e validazione della risorsa <strong>Treebank</strong>;<br />

• nella realizzazione della versione finale del sistema <strong>di</strong> traduzione automatica adottato per la<br />

valutazione della <strong>Treebank</strong> nei suoi <strong>di</strong>versi livelli <strong>di</strong> annotazione.<br />

Gli obiettivi sopra menzionati sono stati tutti raggiunti. Il presente capitolo documenta la<br />

versione finale della <strong>Treebank</strong> <strong>di</strong> SI-TAL ed include:<br />

• la descrizione dei risultati finali del processo <strong>di</strong> annotazione (sezione 2);<br />

• la versione finale delle specifiche <strong>di</strong> annotazione per i livelli ortografico e morfo-sintattico<br />

(sezione 3);<br />

• la versione completa ed aggiornata dei manuali <strong>di</strong> specifiche tecniche per l’annotazione<br />

sintattica, a costituenti e funzionale, e semantico-lessicale (rispettivamente nelle sezioni 4, 5<br />

e 6);<br />

• la documentazione del lavoro svolto nel corso della linea 1.3 finalizzato alla realizzazione<br />

della versione finale del workbench GesTALt per l’annotazione e la validazione della risorsa<br />

(sezione 7);<br />

• un rapporto sui risultati della fase <strong>di</strong> valutazione preliminare del contributo informativo della<br />

<strong>Treebank</strong> <strong>di</strong> SI-TAL ai fini del raffinamento <strong>di</strong> un componente software <strong>di</strong> traduzione<br />

automatica, sia al livello dell’informazione lessicale che ne può essere ricavata sia al livello<br />

dello stu<strong>di</strong>o <strong>di</strong> costruzioni problematiche ai fini del parsing sintattico (sezione 8).<br />

L’eventuale impatto <strong>di</strong> azioni correttive ed interventi specifici sia sul repertorio lessicale che<br />

sulla grammatica del componente <strong>di</strong> traduzione automatica sarà oggetto <strong>di</strong> valutazione<br />

quantitativa dettagliata nell’ambito della Linea 1.4.<br />

E' infine acclusa una sezione <strong>di</strong> Appen<strong>di</strong>ci che documentano la sintassi del linguaggio <strong>di</strong> markup<br />

(XML) adottato per il formato <strong>di</strong> interscambio del materiale annotato, e la corrispondenza tra<br />

questa sintassi e i contenuti linguistici definiti nelle specifiche linguistiche. La rappresentazione<br />

XML dell’annotazione sintattica a costituenti è illustrata nell’Appen<strong>di</strong>ce 1, quella dell’annotazione<br />

sintattico-funzionale nell’Appen<strong>di</strong>ce 2 e quella dell’annotazione semantico-lessicale nell’Appen<strong>di</strong>ce<br />

3.<br />

Per quanto riguarda le specifiche <strong>di</strong> annotazione dei livelli sintattici (a costituenti e funzionale) e<br />

semantico-lessicale, il presente capitolo contiene parte del materiale già documentato all’interno del<br />

Rapporto “Specifiche Tecniche” (Linea 1.1), gli aggiornamenti ad esso relativi apportati nel corso<br />

9


Co<strong>di</strong>ce linea e Tema<br />

della Linea 1.2 e documentati nel Rapporto “Primo Prototipo”, ed infine ulteriori aggiornamenti e<br />

mo<strong>di</strong>fiche che si sono resi necessari nel corso della Linea 1.3. Si è comunque ritenuto opportuno<br />

fornire all’utente finale della <strong>Treebank</strong> <strong>di</strong> SI-TAL una versione completa delle specifiche <strong>di</strong><br />

annotazione per rendere più agevole la consultazione della risorsa. La documentazione dei livelli <strong>di</strong><br />

annotazione della <strong>Treebank</strong> è articolata come segue:<br />

• specifiche linguistiche in senso stretto che definiscono l’ambito dei fenomeni linguistici<br />

coperti e le modalità <strong>di</strong> annotazione;<br />

• criteri <strong>di</strong> annotazione;<br />

• eventuale documentazione <strong>di</strong> problemi emersi nel corso della pratica <strong>di</strong> annotazione del<br />

corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL attraverso il workbench GesTALt, e delle soluzioni<br />

messe a punto in corso d’opera (circoscritta ai livelli <strong>di</strong> annotazione sintattico-funzionale<br />

e semantico-lessicale);<br />

• rappresentazione in XML dell’annotazione (nelle Appen<strong>di</strong>ci).<br />

Le <strong>di</strong>verse parti hanno ovvie interrelazioni, ma è sembrato comunque conveniente articolare la<br />

descrizione su più livelli in<strong>di</strong>pendenti per consentire a <strong>di</strong>verse tipologie ideali <strong>di</strong> lettore <strong>di</strong> accedere<br />

con più facilità ed efficacia all’informazione rilevante.<br />

La fase <strong>di</strong> annotazione ha costituito un banco <strong>di</strong> prova importante della robustezza e adeguatezza<br />

descrittiva degli schemi <strong>di</strong> annotazione messi a punto nelle linee precedenti. Le pagine che seguono<br />

compen<strong>di</strong>ano i risultati <strong>di</strong> questo processo <strong>di</strong> verifica empirica. Va notato che non tutte le strategie<br />

<strong>di</strong> annotazione adottate hanno consentito un trattamento coerente e sod<strong>di</strong>sfacente <strong>di</strong> tutti i fenomeni<br />

rilevanti. Il trattamento al livello sintattico delle strutture comparative, ad esempio, costituisce un<br />

caso particolarmente istruttivo dell’inadeguatezza della riflessione teorica sull’argomento e<br />

dell’insufficienza espressiva dei sistemi <strong>di</strong> rappresentazione al momento <strong>di</strong>sponibili nella<br />

letteratura. Sarebbe pertanto inopportuno cercare in questa versione delle specifiche una parola<br />

definitiva su tutti i fenomeni linguistici <strong>di</strong> interesse teorico. Ciononostante, esse forniscono, a nostro<br />

avviso, una mappa chiara e dettagliata <strong>di</strong> alcuni territori relativamente “battuti” e “rassicuranti”<br />

dalla linguistica teorica e computazionale, insieme all’identificazione puntuale <strong>di</strong> quei territori che<br />

invece richiedono ancora considerevoli energie prima <strong>di</strong> poter essere sottratti alle nebbie<br />

dell’approssimazione e assimilati ai primi. In questo senso, i manuali <strong>di</strong> specifiche tecniche qui<br />

presentati rappresentano un’opera ancora aperta a contributi e approfon<strong>di</strong>menti futuri. Sicuramente,<br />

essi hanno contribuito a gettare luce su quanto resta ancora da fare.<br />

2 La <strong>Treebank</strong> <strong>di</strong> SI-TAL: risultati dell’annotazione<br />

In questa sezione, viene illustrata la composizione finale della <strong>Treebank</strong> <strong>di</strong> SI_TAL; per ogni<br />

livello, sono brevemente descritti i risultati finali del processo <strong>di</strong> annotazione e la metodologia<br />

adottata per lo sviluppo della risorsa.<br />

2.1 Il corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL: composizione interna e livelli <strong>di</strong><br />

annotazione<br />

La composizione interna del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL è riportata nella tabella che segue:<br />

10


Co<strong>di</strong>ce linea e Tema<br />

Partizione<br />

corpus<br />

Fonte Origine Tokens<br />

Finanziario<br />

Bilanciato<br />

Il Sole-24 Ore Giornata del 25/5/1994 89.941<br />

La Repubblica<br />

Articoli <strong>di</strong> vario<br />

argomento usciti tra il<br />

1985 e il 1988<br />

Giornata del 15/7/1995<br />

59.945<br />

77.808<br />

Bilanciato Il Corriere della Sera Giornata del 7/8/1995<br />

57.938<br />

Bilanciato<br />

Perio<strong>di</strong>ci:<br />

• Casaviva<br />

• Centocose<br />

• Epoca<br />

• Espansione<br />

• Grazia<br />

• Panorama<br />

• Starbene<br />

• Storia Illustrata<br />

• Zerouno<br />

Selezione <strong>di</strong> articoli usciti<br />

nell’anno 1988<br />

19.915<br />

TOTALE 305.547<br />

La porzione specialistica (finanziaria) del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL è costituita dagli<br />

articoli estratti da Il Sole-24 Ore, per un totale <strong>di</strong> 89.941 parole (“tokens”). La rimanente parte, per<br />

un totale <strong>di</strong> 215.606 parole, costituisce il corpus “bilanciato”. In totale, la <strong>Treebank</strong> ha una<br />

copertura <strong>di</strong> 305.547 parole.<br />

La tabella che segue illustra la <strong>di</strong>stribuzione dei vari livelli <strong>di</strong> annotazione rispetto alle varie<br />

partizioni del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />

Annotazione<br />

Partiz.<br />

corpus<br />

Fonte<br />

<strong>Sintattico</strong>costituenti<br />

<strong>Sintattico</strong>funzionale<br />

Semanticolessicale<br />

Fin<br />

Il Sole-24 Ore<br />

Bil<br />

La Repubblica<br />

(1985-88)<br />

Bil<br />

La Repubblica<br />

(1995)<br />

Bil<br />

Il Corriere della<br />

Sera<br />

11


Co<strong>di</strong>ce linea e Tema<br />

Annotazione<br />

Partiz.<br />

corpus<br />

Fonte<br />

<strong>Sintattico</strong>costituenti<br />

<strong>Sintattico</strong>funzionale<br />

Semanticolessicale<br />

Perio<strong>di</strong>ci:<br />

Bil<br />

• Casaviva<br />

• Centocose<br />

• Epoca<br />

• Espansione<br />

• Grazia<br />

• Panorama<br />

• Starbene<br />

• Storia<br />

Illustrata<br />

• Zerouno<br />

(1988)<br />

Si noti che l’annotazione parallela ai tre livelli (a costituenti, sintattico-funzionale e semanticolessicale)<br />

è circoscritta al corpus finanziario de Il Sole-24 Ore.<br />

2.2 Annotazione sintattica a costituenti<br />

2.2.1 Risultati<br />

L’annotazione a costituenti ha riguardato la partizione finanziaria del corpus della <strong>Treebank</strong> <strong>di</strong><br />

SI-TAL, per un totale <strong>di</strong> 89.941 tokens, contro gli 80.000 previsti dall’Annesso Tecnico del<br />

progetto. Come illustrato nella tabella che segue, il processo <strong>di</strong> annotazione ha portato<br />

all’identificazione e conseguente annotazione <strong>di</strong> 71.093 costituenti complessi.<br />

Partizione<br />

corpus<br />

Fonte Tokens Costituenti<br />

Fin Il Sole-24 Ore 89.941 71.093<br />

2.2.2 Metodologia <strong>di</strong> annotazione<br />

L'annotazione a costituenti è stata effettuata in due fasi: prima una fase <strong>di</strong> pre-annotazione<br />

automatica il cui risultato è stato oggetto <strong>di</strong> revisione e correzione manuale; poi una fase <strong>di</strong><br />

revisione e correzione delle analisi che sono state convertite in formato XML e caricate nella base<br />

<strong>di</strong> dati <strong>di</strong> GesTALt. Si rinvia il lettore interessato al rapporto “Primo Prototipo”, sezione 4.1.1.1,<br />

dove sono illustrate le operazioni svolte nel dettaglio.<br />

12


Co<strong>di</strong>ce linea e Tema<br />

2.3 Annotazione sintattico-funzionale<br />

2.3.1 Risultati<br />

L’annotazione sintattico-funzionale ha riguardato l’intero corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL (sia<br />

la partizione bilanciata sia quella finanziaria), per un totale <strong>di</strong> 305.547 parole annotate (tokens), a<br />

fronte delle 300.000 previste dall’Annesso Tecnico del progetto.<br />

Il processo <strong>di</strong> annotazione ha portato all’identificazione e conseguente annotazione <strong>di</strong> 162.042<br />

relazioni funzionali, ripartite come segue:<br />

Partiz.<br />

corpus<br />

Fonte<br />

Relazioni<br />

funzionali<br />

identificate<br />

Relazioni<br />

con testa<br />

nominale<br />

Relazioni<br />

con testa<br />

verbale<br />

Relazioni<br />

con testa<br />

aggettivale<br />

Relazioni<br />

con altro<br />

tipo <strong>di</strong> testa<br />

Fin<br />

Bil<br />

Il Sole-24 Ore 47.446 23.529 20.042 1.380 2.495<br />

La Repubblica<br />

(1985-88)<br />

32.132 12.133 17.099 878 2.022<br />

Bil<br />

Bil<br />

La Repubblica<br />

(1995)<br />

Il Corriere<br />

della Sera<br />

41.238 16.241 22.085 1.186 1.726<br />

30.146 11.464 16.250 895 1.537<br />

Bil Perio<strong>di</strong>ci 11.080 4.488 5.366 502 724<br />

Fin+Bil TOTALE 162.042 67.855 80.842 4.841 8.504<br />

2.3.2 Metodologia <strong>di</strong> annotazione<br />

A questo livello, l'annotazione è stata effettuata manualmente per quanto riguarda Il Sole-24 Ore,<br />

La Repubblica (1985-88), Il Corriere della Sera e i Perio<strong>di</strong>ci (sulle motivazioni a supporto <strong>di</strong><br />

questa scelta metodologica si vedano i rapporti “Specifiche Tecniche”, sezione 5.1, e “Primo<br />

Prototipo”, sezione 4.1.2.1.1). Un esperimento <strong>di</strong> annotazione semi-automatica è stato condotto su<br />

un sottoinsieme del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL, corrispondente al corpus de La Repubblica<br />

(1995); a questo fine è stato realizzato un tool per l'annotazione in forma interattiva me<strong>di</strong>ante il<br />

quale l’annotatore conferma o corregge la vali<strong>di</strong>tà <strong>di</strong> una proposta <strong>di</strong> annotazione offerta<br />

dall’interfaccia. Questa porzione del corpus non è inclusa nella base <strong>di</strong> dati <strong>di</strong> GesTALt;<br />

l’annotazione è <strong>di</strong>sponibile in formato XML (per la rappresentazione XML dell’annotazione<br />

funzionale si veda l’Appen<strong>di</strong>ce 2).<br />

Per quanto riguarda l’annotazione manuale, è stata adottata una strategia <strong>di</strong> annotazione in due<br />

passi:<br />

1. annotazione per nuclei argomentali: in questo caso, l'annotazione è parziale nel senso che è<br />

circoscritta solo ai nuclei argomentali <strong>di</strong> pre<strong>di</strong>cati (si veda il rapporto “Primo Prototipo”,<br />

sezione 4.1.2.1.3);<br />

13


Co<strong>di</strong>ce linea e Tema<br />

2. completamento dell’annotazione per nuclei argomentali, conformemente alle Specifiche<br />

Tecniche fornite al termine della Linea 1.1. e successive integrazioni e mo<strong>di</strong>ficazioni<br />

(l’annotazione completa è illustrata nel rapporto “Primo Prototipo”, sezione 4.1.2.1.2).<br />

Questa strategia <strong>di</strong> annotazione in due passi presenta una serie <strong>di</strong> vantaggi. Innanzitutto, permette<br />

un controllo più rigoroso della qualità dell'annotazione che viene rivista ogni volta da almeno due<br />

annotatori: il primo annotatore effettua la prima fase <strong>di</strong> annotazione parziale; il secondo la completa<br />

per renderla conforme alle Specifiche <strong>di</strong> annotazione e nel contempo rivede quanto annotato nella<br />

fase precedente. Sul versante più strettamente operativo, si è raggiunta in minor tempo una<br />

maggiore copertura <strong>di</strong> testo, permettendo così:<br />

• <strong>di</strong> accelerare il processo <strong>di</strong> verifica e convalida delle Specifiche proposte al termine della<br />

Linea 1.1;<br />

• <strong>di</strong> avviare il processo <strong>di</strong> validazione dei risultati acquisiti in tempi più brevi; infatti, anche se<br />

l'informazione relativa ai vari tipi <strong>di</strong> mo<strong>di</strong>ficatori rimane ovviamente cruciale, buona parte<br />

della validazione riguarda l'annotazione dei nuclei argomentali (es. tipologia <strong>di</strong> complementi<br />

selezionati da un dato pre<strong>di</strong>cato). Si veda in proposito la sezione 8.<br />

2.4 Annotazione semantico-lessicale<br />

2.4.1 Risultati<br />

L’Annesso Tecnico stabilisce che l’annotazione semantico-lessicale debba avere<br />

complessivamente una copertura <strong>di</strong> 80.000 parole (tokens) così <strong>di</strong>stribuite:<br />

Corpus bilanciato<br />

Corpus specializzato (finanziario)<br />

56.000 tokens<br />

24.000 tokens<br />

In realtà il corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL conteneva circa 142.000 occorrenze, <strong>di</strong>stribuite tra<br />

sostantivi, verbi ed aggettivi. Era dunque necessario stabilire criteri per la selezione delle unità da<br />

annotare.<br />

Per quanto riguarda il corpus bilanciato, ciò ha comportato:<br />

− l'esclusione dal processo <strong>di</strong> annotazione semantico-lessicale <strong>di</strong> una porzione omogenea <strong>di</strong><br />

corpus (ovvero il sotto-corpus dei Perio<strong>di</strong>ci);<br />

− l’annotazione <strong>di</strong> un sotto-insieme delle occorrenze <strong>di</strong> sigle, abbreviazioni, nomi propri <strong>di</strong><br />

qualsiasi tipo, parole straniere, e <strong>di</strong> caratteri speciali.<br />

Anche riguardo al corpus finanziario, l’annotazione <strong>di</strong> sigle, abbreviazioni, caratteri speciali e<br />

parole straniere è stata effettuata in modo parziale, in linea con quanto stabilito nell’ambito della<br />

risorsa terminologica (EcoWN - corpus finanziario composto da articoli de Il Sole 24 Ore).<br />

Per entrambe le partizioni del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata esclusa dall'annotazione<br />

la seguente tipologia <strong>di</strong> occorrenze verbali: ausiliari, modali, fare, stare e venire con funzione<br />

ausiliare. L'annotazione semantico-lessicale dei verbi si è limitata ai lemmi validati nella risorsa<br />

14


Co<strong>di</strong>ce linea e Tema<br />

lessicale <strong>di</strong> riferimento IWN che presentavano una frequenza <strong>di</strong> occorrenza maggiore <strong>di</strong> 20<br />

(frequenza da intendersi riferita all’unione <strong>di</strong> corpus bilanciato e finanziario).<br />

Infine, l'annotazione degli aggettivi è stata circoscritta ad una breve lista <strong>di</strong> lemmi (circa una<br />

sessantina) stilata in seguito ad uno stu<strong>di</strong>o <strong>di</strong> fattibilità da parte degli annotatori sulla base <strong>di</strong> quanto<br />

proposto dai co<strong>di</strong>ficatori delle risorse lessicali <strong>di</strong> riferimento.<br />

Globalmente l’annotazione semantico-lessicale ha riguardato sostantivi, aggettivi e verbi,<br />

secondo i seguenti termini:<br />

Sostantivi: L’annotazione ha avuto inizio a partire dalla lista <strong>di</strong> lemmi revisionati e resi <strong>di</strong>sponibili<br />

dai lessicografi, marcati nella risorsa lessicale <strong>di</strong> riferimento con l’etichetta “CT” (Corpus<br />

<strong>Treebank</strong>) per <strong>di</strong>stinguerli ed evitare mo<strong>di</strong>fiche da parte dei lessicografi non segnalate agli<br />

annotatori. Ma l'obiettivo <strong>di</strong> una copertura totale dell'annotazione dei sostantivi in entrambe<br />

le partizioni del corpus della <strong>Treebank</strong> (quella bilanciata e quella specialistica), ha portato<br />

all'annotazione <strong>di</strong> lemmi non inclusi in tale lista <strong>di</strong> partenza, inducendo all’uso del campo<br />

“Commento” da parte degli annotatori per segnalare lemmi mancanti in IWN o<br />

semplicemente sospetti sensi mancanti (che in questo modo <strong>di</strong>ventavano facilmente<br />

recuperabili).<br />

Nel caso del corpus finanziario, la copertura si può <strong>di</strong>re pressoché totale (ad esclusione <strong>di</strong><br />

sostantivi facenti parte <strong>di</strong> locuzioni). Nel caso del corpus bilanciato, procedendo in or<strong>di</strong>ne<br />

alfabetico, si può <strong>di</strong>re che la copertura dell'annotazione delle occorrenze dei sostantivi è<br />

totale per tutte le lettere dell’alfabeto ad eccezione <strong>di</strong> T, U, V, Z.<br />

Verbi: L’annotazione ha riguardato esclusivamente i lemmi revisionati e resi <strong>di</strong>sponibili dai<br />

lessicografi, principalmente con frequenza maggiore <strong>di</strong> 20. Va tuttavia sottolineato che sia<br />

per il corpus bilanciato che per quello finanziario non c’è stata una copertura totale <strong>di</strong> tali<br />

lemmi. La scadenza del progetto e l’obiettivo numerico dell’annotazione semantico-lessicale<br />

raggiunto (80.000 parole annotate) costituiscono le ragioni principali dell’esclusione <strong>di</strong> un<br />

sottoinsieme <strong>di</strong> verbi (<strong>di</strong> <strong>di</strong>mensioni ridotte nel caso del corpus bilanciato e leggermente<br />

maggiori nel caso del corpus finanziario).<br />

Aggettivi: Come per i verbi, né per il corpus bilanciato né per quello specialistico si è raggiunta una<br />

copertura totale delle occorrenze. A seguito <strong>di</strong> uno stu<strong>di</strong>o <strong>di</strong> fattibilità basato su un criterio<br />

<strong>di</strong> frequenza che ha tenuto conto separatamente dei due tipi <strong>di</strong> corpora (gli aggettivi più<br />

frequenti del corpus bilanciato e quelli più frequenti del corpus finanziario), una lista <strong>di</strong> circa<br />

sessanta elementi è stata sottoposta da parte degli annotatori ai lessicografi, i quali dopo aver<br />

controllato le entrate lessicali selezionate e averle marcate con l’etichetta “CT”, le hanno<br />

rese <strong>di</strong>sponibili per l’annotazione. Nel caso del corpus bilanciato l’annotazione ha riguardato<br />

anche anche lemmi non convalidati da parte dei lessicografi <strong>di</strong> IWN. Nel caso invece del<br />

corpus finanziario, considerato che tale lista è stata resa <strong>di</strong>sponibile nella fase finale<br />

dell’annotazione (verso fine gennaio 2001) e che era già stato raggiunto l’obiettivo numerico<br />

delle 24.000 parole annotate, si è preferito annotare solo entrate “stabili” (ovvero controllate<br />

dai lessicografi): l’annotazione ha quin<strong>di</strong> riguardato solo la sessantina <strong>di</strong> aggettivi messi a<br />

<strong>di</strong>sposizione, per un totale <strong>di</strong> occorrenze pari a circa un migliaio.<br />

A seguito delle selezioni fatte e dei criteri <strong>di</strong> annotazione adottati, l’annotazione semanticolessicale<br />

è stata portata a termine secondo i dati sintetizzati nella seguente tabella:<br />

15


Co<strong>di</strong>ce linea e Tema<br />

Annotazioni complete Annotazioni parziali Copertura totale<br />

(copertura)<br />

(copertura) annotazioni<br />

Corpus bilanciato 52.199 3.899 56.098<br />

Corpus finanziario 24.881 257 25.138<br />

Si noti che per “annotazioni parziali” s’intendono le unità semantiche (semplici o complesse) per<br />

le quali non è stato possibile precisare un numero <strong>di</strong> senso in riferimento alla risorsa lessicale<br />

(IWN-Gen o EcoWN) poiché o il lemma o il senso specifico risultavano mancanti. In tal caso,<br />

l’attributo relativo al numero <strong>di</strong> senso rimane privo <strong>di</strong> valore e la mancanza viene segnalata<br />

me<strong>di</strong>ante un commento. Non si confonda tale specificazione mancante con il caso <strong>di</strong><br />

“numero_senso=no”, usato per segnalare lemmi non presenti nelle risorse lessicali <strong>di</strong> riferimento (si<br />

veda la sezione 6.2.2).<br />

La tipologia delle unità semantiche in<strong>di</strong>viduate è riportata nella tabella che segue:<br />

Unità<br />

Unità Unità Unità<br />

Partiz.<br />

Fonte semantiche Copertura semantiche semantiche semantiche<br />

corpus<br />

identificate<br />

semplici complesse titolo<br />

Fin Il Sole-24 Ore 22.880 25.138 21.527 1.327 26<br />

Bil<br />

La Repubblica 13.997 16.632 13.200 735 62<br />

(1985-88)<br />

Bil<br />

La Repubblica 19.417 23.098 17.793 1.505 119<br />

(1995)<br />

Bil<br />

Il Corriere 13.678 16.368 12.621 981 76<br />

della Sera<br />

Fin/Bil TOTALE 69.972 81.236 65.141 4.548 283<br />

2.4.2 Metodologia <strong>di</strong> annotazione<br />

Come già previsto nella prima fase, per l’annotazione semantico-lessicale sia del corpus<br />

bilanciato che <strong>di</strong> quello finanziario si è proceduto per lemma, con una selezione dei lemmi sulla<br />

base della frequenza (dai lemmi più frequenti a quelli meno frequenti).<br />

Va tuttavia precisato che, giunti a frequenze basse (1-5 occorrenze all’interno del corpus, per un<br />

numero esteso <strong>di</strong> lemmi) laddove quin<strong>di</strong> la frequenza <strong>di</strong>ventava irrilevante, si è seguito l’or<strong>di</strong>ne<br />

alfabetico, conservando comunque l’obiettivo <strong>di</strong> una copertura totale.<br />

In particolare, per il corpus bilanciato, ragioni pratiche (rapi<strong>di</strong>tà <strong>di</strong> annotazione, frequenze molto<br />

basse dei lemmi, ecc.) hanno indotto all’annotazione per insiemi <strong>di</strong> lemmi o ad<strong>di</strong>rittura per lettera<br />

dell’alfabeto trasversalmente ai vari sotto-corpora (es. sono stati annotati tutti i sostantivi della<br />

lettera A, prima nel sotto-corpus de La Repubblica-15/7/1995, poi gli stessi nel Corriere della Sera<br />

e infine quelli del sotto-corpus de La Repubblica-1985/1988).<br />

Questo metodo <strong>di</strong> annotazione può avere causato qualche incoerenza, soprattutto in<br />

corrispondenza <strong>di</strong> entrate lessicali <strong>di</strong> IWN <strong>di</strong> <strong>di</strong>fficile interpretazione (quali entrate fortemente<br />

16


Co<strong>di</strong>ce linea e Tema<br />

polisemiche o complesse), ma è risultato l’unico possibile onde evitare insostenibili rallentamenti<br />

del lavoro.<br />

L'annotazione del livello semantico-lessicale ha comportato una complessa fase <strong>di</strong> interazione<br />

con il tema ItalWordNet (IWN), in carico dello sviluppo della risorsa lessicale <strong>di</strong> riferimento,<br />

anch'essa in corso <strong>di</strong> completamento durante la terza linea del progetto. Ciò ha richiesto la messa a<br />

punto <strong>di</strong> procedure <strong>di</strong> controllo reciproco, al fine <strong>di</strong> evitare <strong>di</strong>sallineamenti tra la risorsa <strong>Treebank</strong> e<br />

ItalWordNet.<br />

2.4.3 Annotazione e risorsa lessicale <strong>di</strong> riferimento<br />

La messa a <strong>di</strong>sposizione a fianco <strong>di</strong> ItalWordNet per il lessico generico (designato d’ora in avanti<br />

come IWN-Gen) della risorsa lessicale specifica del dominio finanziario (designata come EcoWN)<br />

a partire dagli inizi <strong>di</strong> <strong>di</strong>cembre 2000 ha indotto alla definizione del seguente criterio d’uso a<br />

seconda del lemma da annotare e del corpus <strong>di</strong> provenienza:<br />

• Corpus bilanciato:<br />

− lemma con soli sensi in IWN-Gen: riferimento a IWN-Gen;<br />

− lemma con soli sensi in EcoWN: riferimento a EcoWN;<br />

− lemma con sensi sia in IWN-Gen sia in EcoWN: riferimento a IWN-Gen;<br />

• Corpus finanziario:<br />

− lemma con soli sensi in IWN-Gen: riferimento a IWN-Gen<br />

− lemma con soli sensi in EcoWN: riferimento a EcoWN<br />

− lemma con sensi sia in IWN-Gen sia in EcoWN: riferimento a EcoWN<br />

In sintesi, per il corpus bilanciato la risorsa <strong>di</strong> riferimento principale è IWN-Gen mentre per<br />

quello finanziario è EcoWN.<br />

2.4.4 Interazione tra i siti in carico dell'annotazione semantico-lessicale: CPR e IRST<br />

Rispetto alla fase <strong>di</strong> annotazione per lo sviluppo del Primo Prototipo (Linea 1.2), le interazioni<br />

tra gli annotatori <strong>di</strong> IRST e <strong>di</strong> CPR hanno assunto modalità e frequenza <strong>di</strong>fferenti, in relazione al<br />

modo in cui la stessa annotazione è stata portata avanti.<br />

Fondamentalmente la natura dei lemmi annotati ha con<strong>di</strong>zionato il modo <strong>di</strong> mettere in pratica<br />

l’annotazione. Più specificatamente:<br />

• sostantivi<br />

Mentre l’annotazione nell’ambito della Linea 1.2 ha riguardato quasi esclusivamente unità<br />

semantiche semplici in<strong>di</strong>canti nomi comuni, nella Linea 1.3 è stata estesa a tutte le unità<br />

semantiche complesse e ai titoli, che per modalità <strong>di</strong> creazione e annotazione comportano tempi<br />

<strong>di</strong> annotazione maggiori.<br />

17


Co<strong>di</strong>ce linea e Tema<br />

• verbi<br />

La forte polisemia che caratterizza i verbi (es. passare prevede 21 sensi) ha implicato in fase <strong>di</strong><br />

annotazione:<br />

• necessità <strong>di</strong> maggior tempo per analizzare tutti i sensi possibili per un lemma;<br />

• possibilità <strong>di</strong> confusione tra sensi <strong>di</strong>versi;<br />

• <strong>di</strong>fficoltà a <strong>di</strong>scernere tra i vari sensi previsti e a cogliere <strong>di</strong>fferenze dettate<br />

apparentemente da sfumature minime.<br />

Facendo seguito a quanto detto sopra, i tempi <strong>di</strong> annotazione si sono enormemente <strong>di</strong>latati a scapito<br />

<strong>di</strong> un maggior numero <strong>di</strong> scambi <strong>di</strong> informazioni tra gli stessi annotatori. La definizione <strong>di</strong> strategie<br />

comuni <strong>di</strong> annotazione si è così fatta più spora<strong>di</strong>ca con conseguente penalizzazioni al livello<br />

dell’omogeneità dell’annotazione per mano dei <strong>di</strong>versi annotatori, che può così talvolta presentare<br />

incoerenze.<br />

2.4.5 Interazione tra annotatori IRST-CPR e co<strong>di</strong>ficatori IWN<br />

Per le stesse ragioni <strong>di</strong> cui sopra, modalità e tempi <strong>di</strong> annotazione hanno inciso anche sulle<br />

interazioni tra annotatori IRST-CPR e co<strong>di</strong>ficatori IWN, riducendo queste ultime in maniera<br />

sostanziale e soprattutto cambiandone la natura originale. Da un certo momento in avanti l’esigenza<br />

<strong>di</strong> comunicare dubbi e proposte <strong>di</strong> mo<strong>di</strong>fiche e/o integrazioni ai responsabili delle risorse lessicali è<br />

stata inevitabilmente posta in secondo piano. Oltretutto, all’avvicinarsi della scadenza della Linea, i<br />

tempi <strong>di</strong> co<strong>di</strong>fica delle risorse lessicali e quelli <strong>di</strong> annotazione del corpus risultavano sfasati e non<br />

più sincronizzabili.<br />

Nonostante ciò, gli annotatori hanno continuato a tenere traccia (in primo luogo attraverso<br />

commenti all’interno dell’annotazione) <strong>di</strong> tutti i dubbi e delle proposte <strong>di</strong> mo<strong>di</strong>fica/integrazione,<br />

ritenendo tali informazioni utili per revisioni e sviluppi futuri della risorsa lessicale e del corpus<br />

annotato.<br />

Da parte <strong>di</strong> entrambi i gruppi (annotatori IRST-CPR e co<strong>di</strong>ficatori IWN) c’è inoltre sempre stata<br />

coscienza del problema relativo alle mo<strong>di</strong>fiche della risorsa <strong>di</strong> riferimento nei punti interessanti<br />

lemmi già consegnati (mo<strong>di</strong>fiche che si sono ripercosse sulle annotazioni già realizzate che<br />

dovevano essere riviste alla luce della mo<strong>di</strong>fica stessa). Siccome integrazioni, revisioni e mo<strong>di</strong>fiche<br />

successive <strong>di</strong> IWN possono aver determinato <strong>di</strong>scordanza tra i sensi assegnati dagli annotatori e<br />

quelli previsti nel lessico <strong>di</strong> riferimento, per quanto ci sia stato l’impegno concreto <strong>di</strong> segnalare tali<br />

<strong>di</strong>screpanze e correggerle, non si esclude la possibilità <strong>di</strong> in<strong>di</strong>viduare all’interno della <strong>Treebank</strong> tali<br />

<strong>di</strong>scordanze.<br />

Infine, per quanto riguarda la risorsa lessicale terminologica (EcoWN), l’interazione tra<br />

annotatori e co<strong>di</strong>ficatori della risorsa si è concretizzata nella collaborazione allo sviluppo della<br />

stessa attraverso la proposta <strong>di</strong> una lista <strong>di</strong> possibili entrate raccolte durante la prima fase <strong>di</strong><br />

annotazione, una lista <strong>di</strong> lemmi tratti dal corpus finanziario ed opportunamente selezionati (nomi <strong>di</strong><br />

banche, aziende, titoli bancari, gergo borsistico, ecc.) e la partecipazione alla definizione dei sensi<br />

dei lemmi inseriti sulla base della <strong>di</strong>sambiguazione offerta dagli esempi tratti dal corpus finanziario<br />

stesso.<br />

18


Co<strong>di</strong>ce linea e Tema<br />

2.4.6 Considerazioni e commenti finali<br />

Come emerge dalla casistica marcata attraverso commenti (si veda la sezione 6.2.11.2), il <strong>di</strong>vario<br />

esistente tra corpus annotato e stato delle cose nel lessico <strong>di</strong> IWN non è minimo. Tale <strong>di</strong>vario era<br />

inevitabile se si considera che il lavoro <strong>di</strong> annotazione è avvenuto in parallelo con quello <strong>di</strong><br />

revisione e integrazione della risorsa lessicale generica <strong>di</strong> riferimento (IWN-Gen). Ancor più nel<br />

caso della risorsa lessicale terminologica (EcoWN), sviluppata ad annotazione già in corso (con<br />

conseguente problema <strong>di</strong> mapping tra sensi <strong>di</strong> entrate <strong>di</strong> IWN-Gen e sensi delle stesse entrate<br />

previste in EcoWN - es. ‘prestito’).<br />

Si ritiene quin<strong>di</strong> che il <strong>di</strong>vario tra corpus e lessico sia parzialmente legittimo e quello non<br />

linguisticamente giustificabile potrebbe essere rimosso con un aggiornamento fatto in parallelo<br />

delle due risorse (corpus e lessico).<br />

3 Annotazione ortografica e morfo-sintattica<br />

Come illustrato nei rapporti “Specifiche Tecniche” e “Primo Prototipo”, la <strong>Treebank</strong> <strong>di</strong> SI-TAL<br />

ha una struttura a tre livelli che copre i livelli <strong>di</strong> descrizione linguistica sintattico e semantico.<br />

L'annotazione sintattica è <strong>di</strong>stribuita su due <strong>di</strong>versi livelli, in<strong>di</strong>pendenti ma complementari: il livello<br />

dell'annotazione a costituenti ed il livello dell'annotazione funzionale. Il terzo livello riguarda<br />

l'annotazione semantico-lessicale realizzata nei termini <strong>di</strong> etichettatura <strong>di</strong> senso aumentata con altri<br />

tipi <strong>di</strong> informazione semantica.<br />

I tre livelli <strong>di</strong> annotazione sono in<strong>di</strong>pendenti gli uni dagli altri, e fanno tutti riferimento allo<br />

stesso input, ovvero al testo annotato morfo-sintatticamente: a questo livello l'annotazione include<br />

l'identificazione delle parole morfologiche, con specificazione della relativa parte del <strong>di</strong>scorso e<br />

tratti morfo-sintattici associati, ed il trattamento <strong>di</strong> forme morfologicamente complesse (es. forme<br />

verbali con clitico) e <strong>di</strong> espressioni polilessicali <strong>di</strong> base. Il testo con etichettatura morfo-sintattica fa<br />

a sua volta riferimento ad un altro modulo <strong>di</strong> annotazione, il modulo <strong>di</strong> annotazione ortografica, che<br />

include informazione relativa alle parole ortografiche e all'organizzazione macrotestuale (ovvero<br />

strutturazione del testo in unità quali titolo, sottotitolo, <strong>di</strong>dascalia, corpo dell'articolo, paragrafo,<br />

etc.).<br />

In questa sezione, riportiamo le specifiche <strong>di</strong> annotazione per i livelli presupposti<br />

dall’annotazione sintattica e semantico-lessicale: ovvero l’annotazione ortografica e quella morfosintattica.<br />

3.1 Annotazione ortografica<br />

Il corpus della <strong>Treebank</strong> è organizzato in articoli. Per ogni articolo, il modulo <strong>di</strong> annotazione<br />

ortografica riporta l'informazione relativa alle parole ortografiche che costituiscono il testo e<br />

all'organizzazione macrotestuale.<br />

L'informazione relativa alle parole ortografiche include in<strong>di</strong>cazione della presenza <strong>di</strong> caratteri<br />

maiuscoli/minuscoli con <strong>di</strong>stinzione della seguente tipologia <strong>di</strong> casi:<br />

• tutto minuscole<br />

• tutto maiuscole<br />

• maiuscola iniziale<br />

• presenza sia <strong>di</strong> maiuscole sia <strong>di</strong> minuscole come in "OdG"<br />

19


Co<strong>di</strong>ce linea e Tema<br />

Non si <strong>di</strong>spone dell'informazione relativa al carattere tipografico (neretto, corsivo) in quanto non<br />

era presente nella fonte.<br />

Per ogni articolo, l'informazione macrotestuale consiste nella seguente tipologia <strong>di</strong> informazioni:<br />

• corpus <strong>di</strong> appartenenza, bilanciato o finanziario<br />

• fonte, ovvero titolo del giornale o del perio<strong>di</strong>co in cui è apparso l'articolo<br />

• data<br />

• articolo<br />

• argomento<br />

• autore/firma<br />

• titolo principale<br />

• mezzo titolo<br />

• sottotitolo<br />

• sommario<br />

• corpo del testo<br />

• paragrafo<br />

• <strong>di</strong>dascalia<br />

• tabella (solo quando contenente dati testuali)<br />

La DTD relativa al modulo <strong>di</strong> annotazione ortografica è riportata in appen<strong>di</strong>ce al Rapporto<br />

Tecnico “Primo Prototipo” (Linea 1.2).<br />

3.2 Annotazione morfo-sintattica<br />

Al livello morfo-sintattico, l'annotazione riguarda l'identificazione delle parole morfologiche del<br />

testo costituente l'articolo, con specificazione della relativa parte del <strong>di</strong>scorso e tratti morfologici e<br />

morfo-sintattici associati (la DTD relativa a questo livello <strong>di</strong> annotazione è riportata in appen<strong>di</strong>ce al<br />

Rapporto Tecnico “Primo Prototipo”, Linea 1.2). In questo caso, l'annotazione fa riferimento al<br />

modulo <strong>di</strong> annotazione del livello precedente, ovvero ortografico.<br />

Ogni parola morfologica viene descritta dai seguenti tratti:<br />

• parte del <strong>di</strong>scorso ("pos"), la cui specificazione è obbligatoria; segue l’inventario dei<br />

possibili valori per questo attributo:<br />

• Nome (S)<br />

• Verbo (V)<br />

• Aggettivo (A)<br />

• Pronome (P)<br />

• Predeterminatore (T)<br />

• Determinatore (D)<br />

• Articolo (R)<br />

• Avverbio (B)<br />

• Preposizione (E)<br />

• Congiunzione (C)<br />

• Numerale (N)<br />

20


Co<strong>di</strong>ce linea e Tema<br />

• Interiezione (I)<br />

• Punteggiatura (@@)<br />

• Abbreviazione (SA)<br />

• tratti morfologici ("mfeats"), espressi tramite un co<strong>di</strong>ce sintetico che combina informazione<br />

<strong>di</strong> persona, numero, tempo, modo, etc; tale specificazione è opzionale, essendo limitata ai<br />

soli casi in cui è rilevante; l'inventario dei valori associati a questo attributo è riportato in<br />

Appen<strong>di</strong>ce al Manuale delle "Specifiche Tecniche" (Linea 1.1);<br />

• tratti morfo-sintattici ("sfeats") del tipo verbo transitivo, nome umano, etc. Si tratta <strong>di</strong><br />

etichette volte a integrare l'informazione morfologica delle "mfeats", che permettono una<br />

annotazione in costituenti sintattici tale che ciascun costituente ha una propria identità<br />

semantica chiara, e facilmente relazionabile alle annotazioni funzionali a teste introdotte nel<br />

livello <strong>di</strong> analisi superiore. Si noti che, come nel precedente caso, tale specificazione è<br />

opzionale, essendo limitata ai soli casi in cui è rilevante. L'inventario dei valori delle "sfeats"<br />

con, associato ad ogni etichetta, un commento esplicativo; è riportato Appen<strong>di</strong>ce al Rapporto<br />

Tecnico "Primo Prototipo" (Linea 1.2);<br />

• lemma, la cui specificazione è obbligatoria.<br />

L'annotazione a questo livello include anche il trattamento <strong>di</strong> forme morfologicamente<br />

complesse e <strong>di</strong> espressioni polilessicali <strong>di</strong> base, illustrato rispettivamente nelle sezioni 3.2.1 e 3.2.2.<br />

3.2.1 Annotazione <strong>di</strong> parole ortografiche morfologicamente complesse<br />

Nell'annotazione <strong>di</strong> parole ortografiche morfologicamente complesse (ad es. forme verbali con<br />

clitico), la parola ortografica morfologicamente complessa è segmentata nei suoi elementi<br />

costitutivi. Nel caso delle parole contenenti elementi clitici (es. mangiarlo) due o più parole<br />

morfologiche (es. mangiare e lo) punteranno alla stessa forma ortografica. Ad esempio, la forma<br />

verbale con clitico pubblicandola del livello ortografico, al livello morfologico è segmentata in due<br />

parole morfologiche i cui lemmi sono rispettivamente pubblicare e la e che fanno riferimento<br />

entrambe alla stessa unità ortografica.<br />

3.2.2 Annotazione <strong>di</strong> espressioni polilessicali<br />

Nell'annotazione <strong>di</strong> espressioni polilessicali, la sequenza <strong>di</strong> parole ortografiche che compongono<br />

l'espressione polilessicale è annotata come un'unica parola morfologica.<br />

Le espressioni polilessicali annotate a questo livello sono sempre costituite da sequenze continue<br />

<strong>di</strong> parole ed includono:<br />

• espressioni del tipo ad_hoc, inter_nos, prima_facie, run_time, plug_and_play;<br />

• espressioni irregolari del tipo al_<strong>di</strong>_là, per_lo_più, alla_spicciolata, allo_scoperto,<br />

all'_impazzata;<br />

• locuzioni preposizionali del tipo in_funzione_<strong>di</strong>, fino_a, intorno_a.<br />

Le espressioni polilessicali <strong>di</strong> questo livello sono valide per tutti i livelli <strong>di</strong> annotazione della<br />

<strong>Treebank</strong>. L'annotazione sintattica e semantico-lessicale fa riferimento alle multi-words del livello<br />

21


Co<strong>di</strong>ce linea e Tema<br />

base. Quin<strong>di</strong> fino_a sarà trattata e vista come preposizione e dunque come singola unità <strong>di</strong><br />

annotazione da tutti i livelli. Vi sono altri tipi <strong>di</strong> espressioni polilessicali, come ad esempio<br />

avere_un'idea, fare_sol<strong>di</strong>, fare_esperienza, avere_familiarità così come<br />

consiglio_<strong>di</strong>_amministrazione che sono trattate come tali solo al livello semantico, ovvero la loro<br />

identità <strong>di</strong> espressioni polilessicali è introdotta solo al livello dell'annotazione semantico-lessicale<br />

(si veda la sezione 6.3.4).<br />

Si consideri come esempio la locuzione preposizionale al <strong>di</strong> là <strong>di</strong>: all'intervallo <strong>di</strong> unità<br />

ortografiche coperto dall’espressione polilessicale corrisponde, al livello morfologico, un’unica<br />

parola morfologica il cui lemma è al_<strong>di</strong>_la'_<strong>di</strong> a cui è associata l'interpretazione <strong>di</strong> preposizione<br />

(pos=E). La parola morfologica identificata fa riferimento all'intervallo <strong>di</strong> parole della<br />

rappresentazione ortografica dello stesso articolo.<br />

4 Specifiche <strong>di</strong> annotazione per il livello sintattico a costituenti<br />

In questa sezione forniamo la versione finale delle specifiche <strong>di</strong> annotazione per il livello<br />

sintattico a costituenti, che raccoglie mo<strong>di</strong>fiche ed integrazioni apportate nel corso del processo <strong>di</strong><br />

annotazione. In particolare, si parte dai fondamenti teorici che hanno ispirato la definizione dello<br />

schema (sezione 4.1) per giungere ad una dettagliata descrizione e classificazione dei costituenti<br />

sintattici (sezioni 4.2 e 4.3) ed i relativi criteri <strong>di</strong> annotazione (sezione 4.4).<br />

4.1 Teoria X-barra e costituenza sintattica<br />

Schematicamente, la teoria X-barra (Chomsky 1986) prevede una organizzazione a teste e<br />

proiezioni <strong>di</strong> teste ognuna delle quali dotata <strong>di</strong> una barra, in or<strong>di</strong>ne gerarchico: per cui, il nodo da<br />

cui pende la testa è denotato da 0 e i successivi no<strong>di</strong> dominanti hanno una barra, due barre e<br />

eventuali ulteriori barre - anche se due barre sono <strong>di</strong> solito il massimo livello <strong>di</strong> proiezione.<br />

L’organizzione gerarchica della teoria prevede le seguenti regole astratte <strong>di</strong> riscrittura:<br />

Schema teorico regole X-barra<br />

CP --> Spec(Costituenti Dislocati), Cbarra<br />

Cbarra --> C0, IP<br />

IP --> Spec (SN), Ibarra<br />

Ibarra --> I0, Complementi<br />

C0 --> Complementatore<br />

I0 --> Verbo flesso a tempo finito<br />

4.2 Costituenti sintattici nello schema <strong>di</strong> annotazione <strong>di</strong> SI-TAL<br />

Nella definizione dello schema <strong>di</strong> annotazione della <strong>Treebank</strong> <strong>di</strong> SI-TAL non abbiamo adottato<br />

integralmente la teoria X-barra e i nomi che da essa derivano: nel dettaglio, abbiamo utilizzato lo<br />

schema generale e le etichette IBAR e CP. Per il resto sono state usate sempre etichette <strong>di</strong><br />

costituenti sintattici all’italiana: S(intagma) e non P(hrase) per non provocare confusione, ad<br />

esclusione <strong>di</strong> CP che è stato mantenuto nella forma originale all’inglese.<br />

Le etichette adottate sono commentate nel dettaglio in quanto segue. Presentiamo qui in basso<br />

l’organizzazione astratta della nostra rappresentazione sintattica per il livello <strong>di</strong> frase, con le<br />

mo<strong>di</strong>fiche che introdotte per la <strong>Treebank</strong> <strong>di</strong> SI-TAL. E’ importante ricordare che la stessa<br />

22


Co<strong>di</strong>ce linea e Tema<br />

organizzazione si potrebbe applicare anche agli altri costituenti maggiori con teste semantiche –<br />

sintagma aggettivale (SA), sintagma nominale (SN), sintagma preposizionale (SP) ecc. -, ma poiché<br />

questi non posseggono argomenti obbligatori, questi sono posti sullo stesso livello degli aggiunti e<br />

seguono quin<strong>di</strong> tutti la testa nell’or<strong>di</strong>ne lineare in cui vengono analizzati in superficie.<br />

Come detto più sopra, per il livello <strong>di</strong> frase abbiamo utilizzato CP, per contenere i costituenti<br />

Dislocati o semplicemente Anteposti e eventuali Aggiunti, frasali e non. Per il resto abbiamo<br />

utilizzato Ibarra come previsto nella teoria - che abbiamo chiamato IBAR, per riscrivere il verbo<br />

flesso; e il costituente Complementi che contiene i complementi, che abbiamo chiamato COMP<br />

seguito da T/C/IN per in<strong>di</strong>care la specializzazione per un tipo <strong>di</strong> sottocategorizzazione, dove T sta<br />

per transitivo, C per copulativo e IN per intransitivo. Invece <strong>di</strong> IP abbiamo usato F, e questo nodo è<br />

dominato da no<strong>di</strong> <strong>di</strong> F specializzati. Lo schema adottato nella <strong>Treebank</strong> <strong>di</strong> SI-TAL risulta essere<br />

dunque come segue:<br />

CP --> (Aggiunti), Spec(Costituenti Dislocati), Cbarra<br />

Cbarra --> FC/FS/FInt, F<br />

F --> Spec (SN), IBAR, Complementi, (Aggiunti)<br />

IBAR --> (Neg, Clitici),VerboFlesso (semplice o complesso) con Avverbiali eventuali<br />

Complementi --> COMPT/ COMPC/COMPIN<br />

Per quanto riguarda poi la questione dei tratti <strong>di</strong> accordo, ci siamo basati su suggerimenti della<br />

LFG che prevedono nessun accordo verbale nella rappresentazione, ma tutti i tratti nei SN, che nel<br />

nostro caso sono quelli del livello morfo-sintattico. Riportiamo qui in basso esempi <strong>di</strong> strutture per i<br />

vari costituenti maggiori allo scopo <strong>di</strong> mostrare l’organizzazione dei componenti sulla base dello<br />

schema X-barra. Come si potrà notare, la testa è sempre l’ultimo elemento che precede i<br />

complementi e/o gli aggiunti, ed è a sua volta preceduta da eventuali costituenti minori che<br />

costituiscono il contenuto <strong>di</strong> SPECificatore, nodo che non riportiamo per non appesantire la<br />

rappresentazione stessa.<br />

Ogni paragrafo che segue tratterà ciascun costituente sintattico separatamente mettendo in<br />

grassetto l’elemento testa <strong>di</strong> ciascun costituente preso in considerazione. Si noti che l’in<strong>di</strong>cazione<br />

della testa non è parte integrante dello schema <strong>di</strong> annotazione proposto ma viene inclusa negli<br />

esempi <strong>di</strong> annotazione che seguono per facilitarne la lettura e l’interpretazione. Va inoltre fatto<br />

presente che le etichette morfo-sintattiche che seguono la categoria grammaticale riportate negli<br />

esempi sotto corrispondono alle "sfeats", ovvero tratti morfo-sintattici del tipo verbo transitivo,<br />

nome umano (per maggiori dettagli si veda la sezione 3.2).<br />

4.2.1 F<br />

Con questo simbolo si intende una frase semplice con un pre<strong>di</strong>cato principale e complementi che<br />

possono anche includere altre frasi. Sono anche considerate frasi semplici le frasi ellittiche.<br />

f-[sn-[npro-Gullit],<br />

ibar-[ausa-ha, vppt-<strong>di</strong>chiarato],<br />

compt-[sn-[n-guerra], sp-[part-alla, sn-[n-stampa], sa-[ag-sportiva]]]]<br />

f-[sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]],<br />

ibar-[vt-richiede],<br />

compt-[sn-[n-montagne, spd-[pd-<strong>di</strong>, sn-[n-sol<strong>di</strong>]]]]]<br />

23


Co<strong>di</strong>ce linea e Tema<br />

f-[sn-[<strong>di</strong>m-questa, n-casa],<br />

ibar-[clit-si, vt-vende],<br />

compt-[savv-[avv-bene]]]<br />

f-[ibar-[vsup-dobbiamo, viin-vincere], sn-[nt-domenica],<br />

sp-[p-per,<br />

sv2-[vit-interrompere, compt-[sn-[<strong>di</strong>m-questo, ag-brutto, nt-momento]]]]]<br />

4.2.2 IBAR<br />

Con questo simbolo viene riscritto il gruppo verbale che può includere al proprio interno gli<br />

ausiliari essere o avere, la negazione, eventuali clitici e avverbi che si possono interporre tra<br />

l’ausiliare e il verbo lessicale. Oltre agli ausiliari fanno parte <strong>di</strong> questo costituente i modali e i verbi<br />

aspettuali, e anche la forma perifrastica stare per. Analogamente alla <strong>Treebank</strong> in corso <strong>di</strong><br />

costruzione per lo spagnolo (Sandoval et al. 1999), il problema dei verbi cliticizzati con enclitica è<br />

stato risolto utilizzando la forma <strong>di</strong> parola con l’enclitico e ripetendo successivamente il clitico<br />

come parola separata. In questo caso, quin<strong>di</strong>, il clitico si troverebbe sia all’interno <strong>di</strong> IBAR che nel<br />

complemento (COMPT/IN/C) dove riceverebbe una interpretazione. Segue una tipologia <strong>di</strong><br />

costituenti IBAR:<br />

ibar-[neg-non, vc-ha]<br />

ibar-[ause-è, vc-<strong>di</strong>ventata]<br />

ibar-[ausa-ha, vppt-<strong>di</strong>chiarato]<br />

ibar-[vt-richiede]<br />

ibar-[clit-si, vt-vende]<br />

ibar-[clitdat-le, ausa-ha, vppt-dato]<br />

ibar-[vin-arrivò]<br />

ibar-[ause-è, vppin-arrivata]<br />

ibar-[neg-non, vsup-devono, viin-guardare]<br />

ibar-[ause-è, ausep-stato, vppt-assunto]<br />

ibar-[ause-sono, ausep-stati, avv-spesso, vppt-segnalati]<br />

ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle]<br />

4.2.3 SN<br />

Il Sintagma Nominale si sviluppa con una serie <strong>di</strong> specificatori, una testa ed eventuali<br />

complementi o aggiunti. Tra i costituenti specificatori ci sono gli articoli, i quantificatori, i<br />

numerali; sempre prima del nome si trovano gli aggettivi e i possessivi che non ricevono una<br />

propria struttura <strong>di</strong> costituenza ma vengono semplicemente elencati prima della testa. Gli aggettivi<br />

che seguono la testa del SN sono invece rappresentati nel proprio costituente perché possono avere<br />

a loro volta una struttura interna con complementi ed aggiunti. Sempre all’interno del SN ci sono i<br />

costituenti SPD e gli eventuali complementi frasali nel caso si tratti <strong>di</strong> un nome fattivo o una forma<br />

polilessicale. Le frasi relative sono tutte incluse nel SN.<br />

Un commento a parte va fatto per i nominali che fungono da mo<strong>di</strong>ficatori <strong>di</strong> altri nominali.<br />

Alcuni <strong>di</strong> questi sono nomi propri i fratelli Karamazov, la commissione Sangalli; altri sono semplici<br />

nomi comuni che hanno una funzione <strong>di</strong> specificazione, il settore cucine, la politica suicida ecc. In<br />

tutti questi casi non si in<strong>di</strong>vidua esplicitamente la testa a livello <strong>di</strong> costituenza, in quanto i due o più<br />

nominali si troverebbero allo stesso livello. Il livello dell’annotazione funzionale fornirà invece<br />

l’in<strong>di</strong>cazione esplicita <strong>di</strong> quale dei due o più nominali funga da testa del SN, sulla base delle<br />

relazioni grammaticali che il SN intrattiene con il resto della frase. Se ad esempio è un soggetto,<br />

l’accordo verbale servirà ad in<strong>di</strong>viduare la testa, ecc.<br />

Vi sono poi casi in cui la testa è una espressione polilessicale o multi-word. Segue una tipologia<br />

<strong>di</strong> costituenti <strong>di</strong> tipo SN:<br />

24


Co<strong>di</strong>ce linea e Tema<br />

sn-[art-La, npro-Bimex]<br />

sn-[art-una, ag-bella, n-ragazza]<br />

sn-[ind-molti, n-libri]<br />

sn-[num-<strong>di</strong>eci, n-programmatori]<br />

sn-[ag-infondate, n-speculazioni]<br />

sn-[art-il, poss-loro, n-strumento, spd-[pd-<strong>di</strong>, sn-[n-ricerca]]<br />

sn-[art-un, n-modo, sv2-[pt-<strong>di</strong>, viin-fare, compt-[sn-[n-sol<strong>di</strong>], savv-[avvrapidamente]]]]<br />

sn-[art-Il, n-fatturato, sa-[ag-complessivo],<br />

spd-[partd-delle, sn-[n-società],<br />

coord-[sv3-[vppt-controllate], coord-[cong-e],<br />

sv3-[vppt-collegate]]]<br />

sn-[art-’La’, n-credenza,<br />

fac-[pk-che,<br />

f-[sn-[art-la, n-terra],<br />

ibar-[vcir-sia],<br />

compc-[sa-[ag-rotonda]]]]<br />

sn-[art-il, n-ragazzo,<br />

f2-[rel-che, f-[sn-[nh-Maria],<br />

ibar-[ausa-ha, vppt-incontrato], savv-[avv-ieri]]]]]<br />

sn-[art-la, ag-cosiddetta, n-commissione, nh-sangalli]<br />

sn-[art-il, n-settore, n-cucine]<br />

sn-[nt-domenica, nt-sera]<br />

4.2.4 SP<br />

I costituenti SP sono normalmente composti obbligatoriamente da una testa <strong>di</strong> tipo P<br />

(preposizione) o PART (ovvero preposizione articolata) e da un costituente SN che ne costituisce un<br />

elemento essenziale. Sono trattati come SP anche gli aggiunti infinitivali che quin<strong>di</strong> dopo la testa<br />

hanno un costituente SV2. Va ricordato che si escludono da questo caso i sintagmi preposizionali<br />

introdotti da <strong>di</strong> e da, che hanno una marca sintattica specializzata, come chiarito nelle sezioni 4.2.5<br />

e 4.2.6.<br />

sp-[part-alla, sn-[n-stampa, sa-[ag-sportiva]]]<br />

sp-[p-senza, sv2-[viin-chiedere]]<br />

sp-[p-dopo, sv2-[vcl-averlo, clitac-lo, vppin-chiesto]]<br />

4.2.5 SPDA<br />

Il costituente SPDA è costituito da una testa preposizionali <strong>di</strong> tipo specializzato, il da o le<br />

preposizioni articolate <strong>di</strong> da, e un SN. Questo costituente può servire da Agente Obliquo nelle frasi<br />

passive, oppure può in<strong>di</strong>viduare complementi o circostanziali <strong>di</strong> vario tipo, tra cui un locativo con<br />

l’in<strong>di</strong>cazione <strong>di</strong> Origine o Provenienza.<br />

spda-[partda-dalla, sn-[npro-Union_Carbide]]<br />

spda-[partda-dal, sn-[n-casolare]]]]<br />

coord-[spda-[pda-da, sn-[npro-Sting]],<br />

punt-,<br />

sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]],<br />

cong-e,<br />

spda-[partda-dalla, sn-[npro-Nannini]]]]]<br />

25


Co<strong>di</strong>ce linea e Tema<br />

4.2.6 SPD<br />

Il costituente SPD è costituito da una testa preposizionali <strong>di</strong> tipo specializzato, il <strong>di</strong> o le<br />

preposizioni articolate <strong>di</strong> <strong>di</strong>, e un SN. Questo costituente può servire da complemento verbale, da<br />

aggiunto o complemento nominale e da secondo termine <strong>di</strong> paragone in una struttura comparativa.<br />

spd-[partd-delle, sn-[n-società]]<br />

spd-[pd-<strong>di</strong>, sn-[n-ricerca]]<br />

sa-[in-più, ag-intelligente, spd-[pd-<strong>di</strong>, sn-[np-Europa]]]]]]<br />

4.2.7 SA<br />

Questo costituente viene creato solo per la posizione pre<strong>di</strong>cativa degli aggettivi e può avere una<br />

struttura interna.<br />

sa-[ag-infelice]<br />

sa-[in-più, ag-intelligente, spd-[pd-<strong>di</strong>, sn-[np-Europa]]]<br />

sa-[agn-inferta, sp-[part-alla, sn-[poss-nostra, n-penisola]]]]<br />

4.2.8 SAVV<br />

Questo costituente ha come testa un avverbiale anche in forma locutiva e può avere una struttura<br />

interna.<br />

savv-[avv-bene]<br />

savv-[avvl-alla_spicciolata]<br />

4.2.9 SQ<br />

Il sintagma quantificato può assumere <strong>di</strong>versi ruoli sintattici:<br />

• può essere uno specificatore del Sintagma Nominale (SN), Sintagmi Avverbiale (SAVV),<br />

oppure del Sintagma Aggettivale (SA) come mostrato negli esempi in basso:<br />

sn-[n-livelli, coord-[sa-[sq-[q-dello, num-0/6%], ag-superiori, sp-[p-a,<br />

sn-[deit-quelli, spd-[partd-del, sn-[nt-bimestre, ag-precedente]]]]],<br />

cong-e, sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccongrispetto_all,<br />

sn-[ag-analogo, nt-periodo, spd-[partd-del, sn-[num-1993]<br />

sn-[sq-[q-una, qd-delle, in-più], ag-importanti, n-zone, sa-[ag-costiere],<br />

fc-[ccom-del, sn-[n-Paese]]<br />

sq-[q-uno, qd-dei, num-primi], n-temi]<br />

sn-[sq-[ind-qualunque, q-altro], n-impiegato, sa-[ag-statale]<br />

sn-[sq-[in-oltre, num-10, num-mila], n-spot, savv-[p-in, avv-più]]<br />

savv-[savv-[avv-forse], sq-[art-un, in-pô], avv-prematuramente]<br />

• Il Sintagma Quantificato può essere un complemento <strong>di</strong> verbi che reggono SN quantificati<br />

come mostrato nei seguenti esempi:<br />

26


Co<strong>di</strong>ce linea e Tema<br />

ibar-[ause-è, vppin-sceso], compin-[sp-[part-nel, sn-[nt-mese, sa-[agcorrente]]],<br />

sq-[q-dell, num-1/1%]]<br />

ibar-[vc-risulta], compc-[sq-[q-del, num-3/7%]]]], fc-[cong-ed, f-[ibar-<br />

[ause-è, vppc-stato], compc-[sq-[q-del, num-4%]], sp-[p-in, sn-[nt-aprile]<br />

ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-2/1%]],<br />

ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-13/5%]]<br />

ibar-[vc-sono, avv-oggi], compc-[sq-[in-più, q-<strong>di</strong>, num-700]<br />

ibar-[clit-si, vin-espande], compin-[sq-[q-del, sn-[num-15/8%]<br />

ibar-[vc-risulta], compc-[sa-[ppas-aumentato, sq-[q-dell, num-1/9%]], fc-<br />

[ccong-rispetto_ai, sn-[num-primi, num-tre, nt-mesi, num-1993]<br />

ibar-[aueir-siano, ausep-stati, vppt-compressi], compt-[sq-[in-più, congdegli,<br />

q-altri]]<br />

ibar-[vc-è], compc-[sq-[in-solo, art-un, num-terzo], fc-[ccong-rispetto_a,<br />

• Il SQ può essere un mo<strong>di</strong>ficatore o aggiunto nelle strutture comparative come mostrato nei<br />

seguenti esempi, in cui è strettamente in relazione al sintagma chiamato DegP in ambito<br />

chomskiano, essendo quin<strong>di</strong> espressione <strong>di</strong> un sintagma <strong>di</strong> grado:<br />

sn-[art-un, n-incremento, fp-[punt-,, sp-[p-in, sn-[n-termini, sa-[agreali]]],<br />

punt-,], sq-[q-del, num-5/6%]]<br />

sq-[in-circa, num-15, num-mila, savv-[p-in, avv-più]]<br />

sa-[ag-maggiore, spd-[pd-<strong>di</strong>, sq-[in-più, cong-<strong>di</strong>, num-un, num-quinto, fc-<br />

[ccom-del, sn-[n-voto<br />

ibar-[ause-è, vppin-aumentata], compin-[sq-[in-ben, cong-<strong>di</strong>, avv-più], fc-<br />

[ccom-<strong>di</strong>, sn-[<strong>di</strong>m-quella, sa-[ag-teorica]<br />

4.2.10 SV2<br />

Questo costituente ha come testa un verbo all’infinito, che può essere preceduto oppure no da<br />

una particella verbale, limitatamente alle seguenti preposizioni a, <strong>di</strong>, da. Tutte le altre preposizioni<br />

introducono un SP e contribuiscono all’interpretazione semantica della frase infinitiva che assume<br />

quin<strong>di</strong> valore <strong>di</strong> aggiunto. Nel caso invece rappresentato dalle particelle verbali, queste ultime<br />

vengono semplicemente assorbire dalla struttura infinitiva e non contribuiscono all’interpretazione<br />

semantica. In genere, la presenza della particella in<strong>di</strong>ca la funzione <strong>di</strong> complemento dell’infinitiva.<br />

Il costituente SV2 viene anche utilizzato per l’infinito passato che ha quin<strong>di</strong> un ausiliare seguito<br />

dal verbo lessicale al participio passato. Inoltre, si costruisce come SV2 anche l’infinito cliticizzato.<br />

Il costituente SV2 contiene i propri complementi e aggiunti, intendendo con aggiunti quelli che<br />

mo<strong>di</strong>ficano il significato del verbo che costituisce la testa lessicale del SV2.<br />

sv2-[pt-<strong>di</strong>, vt-fare, compt-[sn-[n-sol<strong>di</strong>], savv-[avv-rapidamente]]]<br />

sv2-[vcl-averlo, clitac-lo, vppin-chiesto]<br />

27


Co<strong>di</strong>ce linea e Tema<br />

sv2-[pt-<strong>di</strong>, vit-spiegare,<br />

fac-[pk-che,<br />

f-[sn-[ag-simili, n-azioni],<br />

ibar-[neg-non, vin-giovano]]]]<br />

sv2-[viin-uscire, compin-[spda-[partda-dal, sn-[n-casolare]]]]]<br />

sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]]<br />

4.2.11 SV3<br />

Questo costituente ha come testa il participio passato in funzione <strong>di</strong> aggiunto mo<strong>di</strong>ficatore<br />

nominale o frasale. Al suo interno ci sono i complementi e gli aggiunti della testa lessicale. Non<br />

vengono inclusi eventuali avverbiali mo<strong>di</strong>ficatori del participio passato che possono precederlo e la<br />

testa risulta quin<strong>di</strong> essere sempre il primo elemento del costituente - ve<strong>di</strong> quasi fatto = [savv-[inquasi],<br />

sv3-[vppt-fatto]]<br />

sv3-[vppt-controllate]<br />

sv3-[vppt-rivolte, sp-[part-all, sn-[n-Italia]],<br />

spda-[partda-dalla, sn-[n-commissione, sa-[ag-europea]]]]<br />

coord-[sv3-[vppt-controllate],<br />

cong-e,<br />

sv3-[vppt-collegate]]<br />

4.2.12 SV5<br />

Questo costituente ha come testa il gerun<strong>di</strong>o in funzione <strong>di</strong> aggiunto mo<strong>di</strong>ficatore frasale. Al suo<br />

interno ci sono i complementi e gli aggiunti della testa lessicale. Non vengono inclusi eventuali<br />

avverbiali mo<strong>di</strong>ficatori del gerun<strong>di</strong>o che possono precederlo e la testa risulta quin<strong>di</strong> essere sempre il<br />

primo elemento del costituente. Il costituente SV5 viene anche utilizzato per il gerun<strong>di</strong>o passato che<br />

ha quin<strong>di</strong> un ausiliare seguito dal verbo lessicale al participio passato. Inoltre, si costruisce come<br />

SV5 anche il gerun<strong>di</strong>o cliticizzato.<br />

sv5-[vgin-parlando]<br />

sv5-[vgin-sparando, savv-[avvl-all_impazzata]]<br />

sv5-[aueg-essendo, vppin-arrivato, savv-[avv-presto]]<br />

4.2.13 F2<br />

Questo costituente ha la stessa funzione <strong>di</strong> CP, serve cioè a contenere costituenti che sono<br />

anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante.<br />

Possono contenere un SN che come testa abbia un elemento funzionale, il complementatore che,<br />

oppure un pronome relativo preceduto oppure no da un articolo – ve<strong>di</strong> esempi riportati in basso.<br />

Potrà contenere anche un SP per i pronomi relativi obliqui, preceduto da una preposizione semplice<br />

o articolata, oppure in<strong>di</strong>viduati da cui. Il costituente F2 domina sempre invariabilmente un nodo F.<br />

sn-[art-il, n-ragazzo,<br />

f2-[sp-[part-al, rel-quale],<br />

f-[sn-[npro-Gullit],<br />

ibar-[ausa-ha, vppin-parlato]]]]<br />

sn-[art-le, n-imprese, sa-[ag-italiane],<br />

f2-[sn-[rel-che],<br />

f-[<br />

coord-[<br />

28


Co<strong>di</strong>ce linea e Tema<br />

ibar-[vt-producono],<br />

cong-e,<br />

ibar-[vt-importano]],<br />

compt-[sn-[n-energia]]]]]]<br />

4.2.14 F3<br />

Questo costituente è usato per annotare frasi frammento, ovvero frasi che non hanno un IBAR al<br />

loro interno, che sono semplicemente dei costituenti <strong>di</strong> tipo nominale, avverbiale, preposizionale<br />

ecc. privi completamente <strong>di</strong> verbo. Casi tipi <strong>di</strong> strutture F3 sono i titoli. Inclu<strong>di</strong>amo alcuni esempi:<br />

f3-[sn-[npro-intersind, sa-[ag-pronta, sp-[part-al, sn-[poss-suo, n-ingresso,<br />

sp-[p-in, sn-[npro-confindustria]]]]]], punto-.]<br />

f3-[congf-poi, sn-[art-l, n-approvazione, spd-[partd-del, sn-[n-programma,<br />

sp-[p-d, sn-[n-attività]], sv3-[ppas-presentato, compt-[sp-[part-alla, sn-[ngiunta]],<br />

sn-[art-il, num-4, nt-giugno]]]]]], punto-.]<br />

4.2.15 FINT<br />

Questo costituente ha la stessa funzione <strong>di</strong> CP, serve cioè a contenere costituenti che sono<br />

anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. In<br />

particolare, come nel caso <strong>di</strong> F2 contiene un SN o un SP che hanno come testa un pronome<br />

interrogativo, preceduto o no da una preposizione.<br />

fint-[sn-[int-chi],<br />

f-[<br />

ibar-[auair-abbia, vppt-incontrato],<br />

compt-[sn-[nh-Maria]]]]<br />

4.2.16 FAC<br />

Questo costituente ha la stessa funzione <strong>di</strong> CP, serve però a contenere soltanto la testa <strong>di</strong> CP, C°,<br />

cioè il complementatore che, che in certi contesti può anche essere vuoto. In questi casi però il nodo<br />

FAC verrà eliminato. Il nodo FAC può apparire nel contesto <strong>di</strong> un complemento verbale come<br />

COMPT oppure in posizione estraposta, all’inizio frase, sotto CP:<br />

compt-[fac-[pk-che,<br />

f-[<br />

ibar-[clit-c, vc-era],<br />

compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]]]]<br />

cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]],<br />

ibar-[vt-significa],<br />

compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]<br />

4.2.17 COMPT<br />

Questo costituente ha la funzione <strong>di</strong> in<strong>di</strong>viduare tutti i complementi <strong>di</strong> verbi transitivi. Contiene<br />

tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai<br />

complementi obbligatori, quin<strong>di</strong> contiene i complementi opzionali. Questo costituente contiene<br />

inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad in<strong>di</strong>viduare delle<br />

modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti<br />

29


Co<strong>di</strong>ce linea e Tema<br />

spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei<br />

complementi.<br />

Questo costituente contiene anche il SN soggetto posposto <strong>di</strong> frasi passive o invertite per motivi<br />

<strong>di</strong> carattere informazionale, pragmatico o semantico.<br />

ibar-[auair-abbia, vppt-incontrato],<br />

compt-[sn-[nh-Maria]]<br />

ibar- [vt-promise],<br />

compt-[sp-[p-a, sn-[nh-Maria]], sv2-[pt-<strong>di</strong>, viin-partire]]<br />

ibar-[ausa-ha, vppt-promesso],<br />

compt-[sv2-[pt-<strong>di</strong>, vit-accettare, sn-[art-il, n-lavoro]]]<br />

ibar-[vt-informò],<br />

compt-[sn-[nh-Maria], spd-[partd-del, sn-[poss-suo, n-arrivo]]]<br />

ibar-[vt-importa],<br />

compt-[spda-[partda-dalla, sn-[npro-Union_Carbide]]]<br />

ibar-[vt-decise],<br />

compt-[sv2-[pt-<strong>di</strong>, viin-partire]]<br />

ibar-[ausa-ha, vppt-visto],<br />

compt-[sn-[n-Paolo], sv2-[viin-uscire, spda-[partda-dal, sn-[n-casolare]]]]<br />

ibar-[vt-considerava],<br />

compt-[sn-[art-i, n-siciliani],<br />

sn-[art-il, n-popolo, sa-[in-più, ag-intelligente,<br />

spd-[pd-<strong>di</strong>, sn-[np-Europa]]]]]<br />

ibar-[ausa-ha, vppt-detto],<br />

compt-[fac-[pk-che, f-[ibar-[ausa-avrebbe, vppt-accettato],<br />

compt-[sn-[art-il, n-lavoro]]]]]]<br />

4.2.18 COMPIN<br />

Questo costituente ha la funzione <strong>di</strong> in<strong>di</strong>viduare tutti i complementi <strong>di</strong> verbi intransitivi. Con<br />

verbi intransitivi si intendono perlomeno i seguenti tipi sintattici: verbi inaccusativi, verbi<br />

inergativi, verbi atmosferici, verbi impersonali.<br />

Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre<br />

ai complementi obbligatori, quin<strong>di</strong> contiene i complementi opzionali. Questo costituente contiene<br />

inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad in<strong>di</strong>viduare delle<br />

modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti<br />

spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei<br />

complementi.<br />

Questo costituente contiene anche il SN soggetto posposto <strong>di</strong> frasi invertite per motivi <strong>di</strong><br />

carattere informazionale, pragmatico o semantico. Casi particolari sono costituiti da frasi ergative,<br />

frasi con il si impersonale, frasi con verbi riflessivi inerenti.<br />

ibar-[vin-esce],<br />

compin-[sp-[part-allo, sn-[n-scoperto]]]<br />

ibar-[vin-arrivai],<br />

compin-[sp-[p-in, sn-[n-ritardo]]]<br />

30


Co<strong>di</strong>ce linea e Tema<br />

4.2.19 COMPC<br />

Questo costituente ha la funzione <strong>di</strong> in<strong>di</strong>viduare il complemento <strong>di</strong> verbi copulativi. Contiene<br />

tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai<br />

complementi obbligatori, quin<strong>di</strong> contiene i complementi opzionali. Questo costituente contiene<br />

inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad in<strong>di</strong>viduare delle<br />

modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti<br />

spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei<br />

complementi, come ad esempio nel caso <strong>di</strong> una pre<strong>di</strong>cazione <strong>di</strong> Locativi ripresi oppure no dal ci.<br />

ibar-[clit-c, vc-era],<br />

compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]<br />

ibar-[clit-’C’, vc-è],<br />

compc-[sn-[art-una, n-vespa], sp-[part-nella, sn-[poss-mia, n-camera]]]<br />

4.2.18 COORD<br />

COORD/Nome <strong>di</strong> costituente serve per coor<strong>di</strong>nare costituenti tra <strong>di</strong> loro e nel caso <strong>di</strong> SN ad<br />

assegnare numero plurale all’insieme creato dai due o più SN coor<strong>di</strong>nati. Questo costituente<br />

comprende due tipi <strong>di</strong> teste: la congiunzione coor<strong>di</strong>nate in<strong>di</strong>viduata da “cong-e” oppure un segno <strong>di</strong><br />

punteggiatura, “punt-,”. Le strutture coor<strong>di</strong>nate possono contenere liste e frasi ellittiche che nel<br />

Penn <strong>Treebank</strong> vengono in<strong>di</strong>cate da costituenti appositi LST e FRAG. Abbiamo scelto <strong>di</strong> non<br />

introdurre marche specializzate per questo tipo <strong>di</strong> strutture in quanto la nostra rappresentazione non<br />

include le categorie vuote. Abbiamo invece trattato a parte le frasi coor<strong>di</strong>nate, che potrebbero<br />

oppure no prevedere strutture ellittiche, con un costituente separato FC (ve<strong>di</strong> sotto).<br />

coord-[sn-[art-I, n-superstiti],<br />

cong-e,<br />

sn-[art-i, n-parenti, spd-[partd-delle, sn-[n-vittime]]]]<br />

coord-[sv3-[vppt-controllate],<br />

cong-e,<br />

sv3-[vppt-collegate]]<br />

coord-[<br />

ibar-[vt-producono],<br />

cong-e,<br />

ibar-[vt-importano]],<br />

compt-[sn-[n-energia]]]<br />

compin-[coord-[<br />

sp-[part-all, sn-[n-aumento, spd-[pd-<strong>di</strong>, sn-[n-capitale]]]],<br />

punt-,<br />

sp-[part-all, n-utile, spd-[pd-<strong>di</strong>, sn-[n-esercizio]]],<br />

cong-ed,<br />

sp-[part-ai, sn-[n-contributi,<br />

sp-[p-per, sn-[art-l, n-e<strong>di</strong>toria]]]]]<br />

coord-[sp-[part-sui, sn-[n-pedatori, sp-[p-a, sn-[n-<strong>di</strong>sposizione]]]],<br />

cong-e,<br />

sp-[part-sui, sn-[n-tecnici]]]]<br />

coord-[ibar-[ausa-ha, vppt-confermato],<br />

compt-[sn-[npro-Eugenio, npro-Scalfari]],<br />

cong-ed,<br />

ibar-[ausa-ha, vppt-deliberato],<br />

compt-[sv2-[pt-<strong>di</strong>, vit-aumentare],<br />

sn-[art-il, n-numero, spd-[partd-dei, sn-[n-consiglieri]]]]]<br />

coord-[spda-[pda-da, sn-[npro-Sting]],<br />

31


Co<strong>di</strong>ce linea e Tema<br />

punt-,<br />

sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]],<br />

cong-e,<br />

spda-[partda-dalla, sn-[npro-Nannini]]]]]<br />

fc-[<br />

f-[sn-[ind-Molti],<br />

ibar-[vt-<strong>di</strong>ranno],<br />

fac-[pk-che, f-[ibar-[vc-è],<br />

compc-[sn-[art-il, n-trionfo,<br />

spd-[partd-della, sn-[n-marcatura,<br />

sp-[p-a, sn-[n-uomo]]]]]]]]],<br />

punt-,<br />

f-[sn-[pron-io],<br />

compt-[fac-[intj-no]]]]<br />

4.2.19 FC<br />

Un sottocaso <strong>di</strong> coor<strong>di</strong>nazione è costituito dalla coor<strong>di</strong>nazione <strong>di</strong> frasi, una delle quali ellittica,<br />

che viene demarcata da un costituente esplicito, FC.<br />

fc-[f-[sn-[art-Gli, n-esempi],<br />

ibar-[ause-sono, vppt-scritti],<br />

compt-[sp-[p-in, sn-[n-corsivo]]]],<br />

punt-,<br />

f-[sn-[art-le, n-glosse],<br />

compt-[sp-[p-in, sn-[n-stampatello]]]]]<br />

Inoltre il costituente FC è usato anche per l’annotazione della seguente tipologia <strong>di</strong> casi:<br />

• frasi coor<strong>di</strong>nate dalla punteggiatura come il punto e virgola;<br />

• frasi o costituenti ellittici coor<strong>di</strong>nati da congiunzione comparativa che esemplifichiamo qui in<br />

basso.<br />

Seguono alcuni esempi:<br />

sa-[ag-invariato], fc-[ccong-rispetto_a, sn-[nt-febbraio]<br />

sa-[ag-superiore]], fc-[ccong-rispetto_a, sn-[art-un, nt-anno, savv-[avvlfa]]<br />

sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo,<br />

nt-periodo, spd-[partd-del, sn-[num-1993]<br />

fc-[ccong-come, f-[ibar-[vt-chiedono], compt-[sn-[art-gli, n-ospedalieri]<br />

fc-[ccong-più, coord-[spda-[pda-da, sn-[n-nervosismo]], cong-e, spda-[partdadai,<br />

sn-[ag-normali, n-movimenti]]], cong-che, spda-[pda-da, sn-[art-un, n-<br />

cambiamento, spd-[pd-<strong>di</strong>, sn-[n-vedute, sp-[part-sulle, sn-[n-prospettive,<br />

spd-[partd-del, sn-[n-rischio_italia]<br />

fc-[ccong-come, f-[ibar-[ausa-ha, vppt-spiegato], compt-[savv-[avv-ieri], sn-<br />

[nh-mandela]<br />

fc-[ccong-come, f-[ibar-[clit-si, vt-vede], compt-[spda-[partda-dalla, sn-[ntabella]<br />

fc-[ccong-come, sv3-[ppas-detto]<br />

32


Co<strong>di</strong>ce linea e Tema<br />

fc-[ccong-rispetto_a, sn-[f2-[relq-quanto, f3-[sv3-[ppas-prodotto, compt-[sp-<br />

[part-nella, ag-scorsa, sn-[nt-stagione]<br />

fc-[ccong-come, f-[sn-[n-logica], ibar-[virt-porterebbe], compt-[sv2-[sp-[pta,<br />

vit-dedurre]<br />

ibar-[ausa-ha, vppt-sottolineato], compt-[fc-[ccong-come, f-[sn-[art-il, n-<br />

Registro, spd-[partd-delle, sn-[n-imprese]]], ibar-[virt-marchi], compt-[sn-<br />

[art-il,<br />

4.2.20 FP<br />

Con FP si in<strong>di</strong>ca la presenza <strong>di</strong> punteggiatura nel testo che può servire successivamente ad<br />

in<strong>di</strong>viduare una eventuale frase parentetica o appositiva, o semplicemente a marcare la spezzatura<br />

del testo in parti informativamente <strong>di</strong>fferenti. Con FP sono designati ad esempio, gli aggiunti aperti<br />

del tipo participiale posti dopo la testa che li governa. Le strutture appositive possono essere anche<br />

aggiunti <strong>di</strong> tipo chiuso, mo<strong>di</strong>ficatori o attributi. Le parentetiche possono essere frasi <strong>di</strong> commento,<br />

in forma anche ellittica racchiuse tra due simboli <strong>di</strong> punteggiatura.<br />

cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]],<br />

fp-[punt-,],<br />

f-[sn-[npro-Giovanni], ibar-[vt-vide],<br />

compt-[ [sn-[qc-tutta, art-la, n-partita]]]]<br />

cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]],<br />

fp-[punt-,],<br />

f-[sn-[nh-Maria], ibar-[vin-partì]]]<br />

f-[ibar-[vin-slitta],<br />

sn-[art-la, n-riunione,<br />

fp-[punt-,], f-[sv3-[vppt-prevista], sp-[p-per, sn-[n-oggi]],<br />

fp-[punt-,],<br />

spd-[partd-della, sn-[ag-cosiddetta, n-commissione, nh-sangalli]]]]<br />

4.2.21 CP<br />

Come già chiarito in precedenza, il costituente CP viene usato per contenere genericamente tutti i<br />

costituenti <strong>di</strong>slocati che sono stati anteposti o preposti a seguito <strong>di</strong> processi sintattici. In particolare,<br />

processi come la <strong>di</strong>slocazione a sinistra o la estraposizione esemplificata più in basso sono casi in<br />

questione. CP è anche la marca che viene utilizzata per le frasi interrogative con elemento wh- del<br />

tipo <strong>di</strong> chi, che cosa, quando, perché, ecc.<br />

Il costituente CP viene utilizzato genericamente per tutte quelle frasi che non iniziano con il SN<br />

SOGGetto o con il gruppo verbale IBAR, ma con un aggiunto come un SP o un SAVV, oppure con<br />

frasi a tempo indefinito come le gerun<strong>di</strong>ve o le participiali, esemplificate più in basso. Inoltre, CP<br />

funge da nodo padre per strutture <strong>di</strong> frasi complesse, cioè <strong>di</strong> frasi composte da una frase subor<strong>di</strong>nata<br />

e una frase principale semplice. Altri esempi <strong>di</strong> questi casi sono stati inseriti nella sezione<br />

successiva de<strong>di</strong>cata a FS in quanto parte integrante <strong>di</strong> rappresentazione <strong>di</strong> perio<strong>di</strong>.<br />

Che Maria sia partita significa che si è arresa.<br />

cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]],<br />

f-[ibar-[vt-significa],<br />

compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]]<br />

Essendo arrivato presto, Giovanni vide tutta la partita.<br />

cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]],<br />

33


Co<strong>di</strong>ce linea e Tema<br />

fp-[punt-,],<br />

f-[sn-[npro-Giovanni],<br />

ibar-[vt-vide],<br />

compt-[sn-[qc-tutta, art-la, n-partita]]]]<br />

Finito il lavoro, Maria partì.<br />

cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]],<br />

fp-[punt-,],<br />

f-[sn-[nh-Maria], ibar-[vin-partì]]]<br />

Che i governi europei debbano silenziosamente ingoiarle non è giusto.<br />

cp-[fac-[pk-Che, f-[sn-[art-i, n-governi, ag-europei],<br />

ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle,<br />

compt-[clitac-le]]]],<br />

f-[ibar-[neg-non, vc-è], svc-[sa-[ag-giusto]]]]<br />

In cambio delle attrezzature e della <strong>di</strong>sponibilità del sito, le università<br />

americane e giapponesi coinvolte nell’esperimento pagheranno le molte e<br />

carissime tonnellate <strong>di</strong> argon liquido che serviranno a verificare se e quando il<br />

protone decade.<br />

cp-[sp-[p-in, sn-[n-cambio],<br />

coord-[spd-[partd-delle, sn-[n-attrezzature]],<br />

cong-e,<br />

spd-[partd-della, sn-[n-<strong>di</strong>sponibilità,<br />

spd-[partd-del, sn-[n-sito]]]]]],<br />

fp-[punt-,],<br />

f-[sn-[art-le, n-università,<br />

coord-[sa-[ag-americane],<br />

cong-e,<br />

sa-[ag-giapponesi]],<br />

sv3-[vppt-coinvolte, sp-[part-nell, sn-[n-esperimento]]]],<br />

ibar-[vt-pagheranno],<br />

compt-[sn-[art-le,<br />

coord-[sa-[ind-molte],<br />

cong-e,<br />

sa-[ag-carissime]],<br />

n-tonnellate, spd-[pd-<strong>di</strong>, sn-[n-argon], sa-[ag-liquido]],<br />

f2-[rel-che, ibar-[vt-serviranno],<br />

compt-[sv2-[pt-a, vit-verificare,<br />

compt-[<br />

cp-[cosu-se, cong-e, cosu-quando,<br />

f-[sn-[art-il, n-protone],<br />

ibar-[vin-decade],<br />

f-[punto-.]]]]]]]]]]]<br />

4.2.22 FS e CP<br />

Il costituente FS viene utilizzato in presenza <strong>di</strong> un elemento linguistico che funga da<br />

subor<strong>di</strong>natore, quin<strong>di</strong> per tutte le frasi subor<strong>di</strong>nate. Normalmente le frasi subor<strong>di</strong>nate sono<br />

accompagnate da frasi principali, ma non è sempre così come mostrato da un esempio sottostante.<br />

Oppure, se si vuol parlare <strong>di</strong> applicazioni, sarà bene ricordare che sono fisici<br />

anche tutti coloro che si occupano <strong>di</strong> laser, per materiali per l’elettronica, <strong>di</strong><br />

superfreddo e superconduttività.<br />

Perché i fisici delle particelle sono alla ribalta molto più spesso dei loro<br />

colleghi che si occupano <strong>di</strong> laser o <strong>di</strong> stato solido? “Prima <strong>di</strong> tutto”, risponde<br />

Roberto Fieschi, docente <strong>di</strong> fisica dello stato solido dell’Università <strong>di</strong> Parma,<br />

“perché i fisici nucleari e subnucleari hanno il loro istituto, l’Infn, agile<br />

ed efficiente malgrado le pastoie del parastato. Mentre gli altri gruppi <strong>di</strong><br />

ricercatori fisici sono <strong>di</strong>spersi negli istituti e nei centri del Cnr, e soffrono<br />

tutte le ben note <strong>di</strong>fficoltà <strong>di</strong> questo ente.”<br />

cp-[fc-[cong-Oppure],<br />

fp-[punt-,],<br />

fs-[cosu-se,<br />

f-[ibar-[clit-si, vsup-vuol, vit-parlare],<br />

compin-[spd-[pd-<strong>di</strong>, sn-[n-applicazioni]]]]],<br />

34


Co<strong>di</strong>ce linea e Tema<br />

fp-[punt-,],<br />

f-[ibar-[clit-si, vit-ricorderà],<br />

compt-[fac-[pk-che,<br />

f-[ibar-[vc-sono, svc-[sa-[ag-fisici]]],<br />

sn-[in-anche, qc-tutti, deit-coloro,<br />

f2-[rel-che, ibar-[clit-si, vt-occupano],<br />

compin-[<br />

coord-[spd-[pd-<strong>di</strong>, sn-[n-laser]],<br />

fp-[punt-,],<br />

sp-[p-per, sn-[n-materiali],<br />

sp-[p-per, sn-[art-l, n-elettronica]]],<br />

fp-[punt-,],<br />

spd-[pd-<strong>di</strong>, sn-[n-superfreddo]],<br />

cong-e,<br />

sn-[n-superconduttività]]],<br />

f-[punto-.]]]]]]]]<br />

cp-[cosu-Perché,<br />

f-[sn-[art-i, n-fisici, spd-[partd-delle, sn-[n-particelle]]],<br />

ibar-[vc-sono],<br />

svc-[sp-[part-alla, sn-[n-ribalta]], savv-[in-molto, in-più, avv-spesso],<br />

spd-[partd-dei, sn-[poss-loro, n-colleghi,<br />

f2-[rel-che, ibar-[clit-si, vt-occupano],<br />

coord-[spd-[pd-<strong>di</strong>, sn-[n-laser]],<br />

cong-o,<br />

spd-[pd-<strong>di</strong>, n-stato, sa-[ag-solido]]],<br />

f-[puntint- ?]]]]]]]<br />

cp-[fp-[par-”],<br />

sp-[php-prima_<strong>di</strong>, sa-[avv-tutto]],<br />

fp-[par-”],<br />

fp-[punt-,],<br />

f-[ibar-[vin-risponde],<br />

sn-[nh-roberto_fieschi],<br />

fp-[punt-,],<br />

sn-[n-docente, spd-[pd-<strong>di</strong>, sn-[n-fisica_dello_stato_solido]],<br />

spd-[partd-dell, sn-[n-Università, spd-[pd-<strong>di</strong>, sn-[np-Parma]]]]]],<br />

fp-[punt-,],<br />

fp-[par-”],<br />

fs-[cosu-perché,<br />

f-[sn-[art-i, n-fisici,<br />

coord-[sa-[ag-nucleari],<br />

cong-e,<br />

sa-[ag-subnucleari]]],<br />

ibar-[vc-hanno],<br />

compc-[sn-[art-il, poss-loro, n-istituto],<br />

fp-[punt-,],<br />

sn-[art-l, npro-Infn],<br />

fp-[punt-,],<br />

coord-[sa-[ag-agile,<br />

cong-ed,<br />

sa-[ag-efficiente]]]],<br />

fs-[cong-malgrado,<br />

f-[sn-[art-le, n-pastoie, spd-[partd-del, sn-[n-parastato]]]]],<br />

f-[punto-.]]]]<br />

fs-[cosu-Mentre,<br />

f-[sn-[art-gli, ag-altri, n-gruppi,<br />

spd-[pd-<strong>di</strong>, sn-[n-ricercatori], sn-[ag-fisici]]],<br />

ibar-[ause-sono, vppt-<strong>di</strong>spersi],<br />

compin-[coord-[<br />

sp-[part-negli, sn-[n-istituti]],<br />

cong-e,<br />

sp-[part-nei, sn-[n-centri, spd-[partd-del, sn-[npro-Cnr]]]]]]],<br />

fp-[punt-,],<br />

fc-[cong-e,<br />

f-[ibar-[vt-soffrono],<br />

compt-[sn-[qc-tutte, art-le, in-ben, ag-note, n-<strong>di</strong>fficoltà,<br />

spd-[pd-<strong>di</strong>, sn-[<strong>di</strong>m-questo, n-ente]]]],<br />

35


Co<strong>di</strong>ce linea e Tema<br />

f-[punto-.]]]]<br />

fp-[par-”],<br />

4.2.23 CP_INT<br />

Questo costituente serve per marcare frasi interrogative che iniziano con aggiunti oppure<br />

congiunzioni frasali subor<strong>di</strong>nanti o coor<strong>di</strong>nanti, o ancora frasi interrogative frammento.<br />

cp_int-[sn-[n-Effetto, sn-[npro-Multiplex]], par-(-), fint-[sn-[int-Quali],<br />

f-[ibar-[vc-sono], compc-[sn-[art-gli, n-effetti, spd-[pd-<strong>di</strong>, sn-[<strong>di</strong>m-questa,<br />

n-concentrazione, sp-[p-tra, sn-[coord-[n-<strong>di</strong>stribuzione, cong-ed, n-<br />

esercizio]]]]]]]]], puntint-?]<br />

cp_int-[fc-[congf-Ma, savv-[avv-oggi], punt-,, sp-[p-con, coord-[sn-[art-i,<br />

n-cd_rom], cong-e, sn-[art-la, n-multime<strong>di</strong>alità]]], punt-,, f-[ibar-[vc-è],<br />

compc-[sn-[in-davvero, art-lo, ag-stesso, n-mestiere, spd-[pd-<strong>di</strong>, sn-[num-<br />

500, nt-anni, savv-[avvl-fa]]]]]], puntint-?]],<br />

cp_int-[f3-[coord-[sn-[nt-fine, spd-[partd-delle, sn-[n-ambizioni]]], cong-o,<br />

sn-[ag-ennesimo, n-voltafaccia]], sp-[p-su, sn-[art-una, n-vicenda, f2-[sp-<br />

[part-sulla, rel-quale], f-[sn-[np-mosca], sp-[part-negli, sn-[ag-ultimi, ntmesi]],<br />

ibar-[neg-non, ausa-ha, vppt-cessato], compt-[coord-[sv2-[pt-<strong>di</strong>, vitcambiare,<br />

compt-[sn-[n-posizioni]]], punt-,, sv2-[pt-<strong>di</strong>, vit-<strong>di</strong>re, compt-<br />

[coord-[sn-[qc-tutto], cong-e, sn-[art-il, n-contrario, spd-[pd-<strong>di</strong>, sn-[qctutto]]]]]]]]]]]]],<br />

puntint-?]<br />

4.2.24 DIRSP<br />

Questo costituente serve per l'annotazione del <strong>di</strong>scorso <strong>di</strong>retto: contiene due frasi separate dal<br />

segno <strong>di</strong> punteggiatura ":". Questo segno è però ambiguo tra <strong>di</strong>scorso <strong>di</strong>retto, <strong>di</strong>scorso riportato,<br />

commento ecc., riportiamo qui un solo esempio:<br />

<strong>di</strong>rsp-[f-[sn-[art-il, n-traino, sa-[in-più, ag-consistente]], ibar-[vinviene],<br />

compin-[savv-[avv-sempre], spda-[partda-dalle, sn-[n-ven<strong>di</strong>te, sp-<br />

[part-all, sn-[n-estero]]]]]], <strong>di</strong>rs-:, f-[sn-[art-il, num-plus9/5%, n-<br />

tendenziale, spd-[pd-<strong>di</strong>, sn-[nt-maggio]]], punt-,, sp-[p-contro, coord-[sn-<br />

[art-il, num-6%, spd-[pd-<strong>di</strong>, sn-[nt-marzo]]], cong-e, sn-[art-il, num-7/4%,<br />

spd-[pd-<strong>di</strong>, sn-[nt-aprile]]]]], punto-.]]<br />

4.3 Tipologia dei costituenti sintattici della <strong>Treebank</strong> <strong>di</strong> SI-TAL<br />

Riassumendo, nella tabella che segue è riportata la tipologia dei costituenti sintattici che<br />

appaiono nella rappresentazione sintattica a costituenti della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />

Simbolo<br />

F<br />

SN<br />

SA<br />

SP<br />

SPD<br />

SPDA<br />

SAVV<br />

Tipo <strong>di</strong> costituente<br />

frase<br />

sintagma nominale<br />

sintagma aggettivale<br />

sintagma preposizionale<br />

sintagma preposizionale DI<br />

sintagma preposizionale DA<br />

sintagma avverbiale<br />

36


Co<strong>di</strong>ce linea e Tema<br />

Simbolo<br />

SQ<br />

IBAR<br />

SV2<br />

SV3<br />

SV5<br />

FAC<br />

FC<br />

FS<br />

FINT<br />

FP<br />

F2<br />

F3<br />

CP<br />

CP_INT<br />

COORD/co<br />

stituente<br />

COMPT<br />

COMPIN<br />

COMPC<br />

DIRSP<br />

Tipo <strong>di</strong> costituente<br />

sintagma quantificato<br />

nucleo verbale a tempo finito<br />

frase infinitiva<br />

frase participiale<br />

frase gerun<strong>di</strong>va<br />

frase complemento<br />

Coor<strong>di</strong>natore frase coor<strong>di</strong>nata<br />

Subor<strong>di</strong>natore frase subor<strong>di</strong>nata<br />

Elementi +wh frase interrogativa<br />

Introduttore punteggiatura frase parentetica o<br />

apposizione, o separatore testo<br />

Frase relativa<br />

Frase frammento<br />

Elementi <strong>di</strong>slocati o anteposti, aggiunti frasali e non<br />

Frase interrogativa con aggiunti in inizio frase<br />

Elemento coor<strong>di</strong>nante e costituente coor<strong>di</strong>nato<br />

Complementi retti da VerbiTransitivi<br />

Complementi retti da Verbi Intransitivi<br />

Complementi retti da Verbi Copulativi<br />

Discorso <strong>di</strong>retto<br />

Prima <strong>di</strong> passare ai criteri <strong>di</strong> annotazione per questo livello, forniremo una classificazione dei<br />

costituenti, sulla base <strong>di</strong> come questi riorganizzano i materiali lessicali al proprio interno. In<br />

particolare, possiamo parlare dei seguenti tipi <strong>di</strong> costituenti:<br />

• costituenti funzionali: includono tutti quei costituenti che al proprio interno non prevedono la<br />

presenza <strong>di</strong> una testa lessicale semantica, oppure come nel caso dei gruppi preposizionali, che<br />

non sono completi semanticamente senza la presenza <strong>di</strong> un ulteriore costituente. I costituenti<br />

funzionali si sud<strong>di</strong>vidono a loro volta in:<br />

• costituenti Funzionali Strutturali, che sono privi <strong>di</strong> una qualsiasi testa lessicale che li<br />

in<strong>di</strong>vidui;<br />

• costituenti Funzionali Lessicali, che hanno obbligatoriamente una testa lessicale che ha<br />

oppure no contenuto semantico;<br />

• costituenti Sostanziali, che contengono teste lessicali semantiche.<br />

4.3.1 Costituenti Funzionali Strutturali<br />

Simbolo<br />

F<br />

CP<br />

COMPT<br />

COMPIN<br />

COMPC<br />

Tipo <strong>di</strong> costituente<br />

frase<br />

Elementi <strong>di</strong>slocati o anteposti, aggiunti frasali e non<br />

Complementi retti da Verbi Transitivi<br />

Complementi retti da Verbi Intrasitivi<br />

Complementi retti da Verbi Copulativi<br />

37


Co<strong>di</strong>ce linea e Tema<br />

4.3.2 Costituenti Funzionali Lessicali<br />

Simbolo<br />

FAC<br />

FC<br />

FS<br />

FINT<br />

FP<br />

F2<br />

COORD/costituente<br />

SP<br />

SPD<br />

SPDA<br />

Tipo <strong>di</strong> costituente<br />

frase complemento con o senza complementatore<br />

Coor<strong>di</strong>natore frase coor<strong>di</strong>nata<br />

Subor<strong>di</strong>natore frase subor<strong>di</strong>nata<br />

Elementi +wh frase interrogativa, anche se il<br />

pronome interrogativo è preceduto da preposizione<br />

Introduttore punteggiatura frase parentetica o<br />

apposizione<br />

Frase relativa, anche se il pronome relativo è<br />

preceduto da preposizione o da articolo<br />

Elemento coor<strong>di</strong>nante e costituente coor<strong>di</strong>nato<br />

sintagma preposizionale<br />

sintagma preposizionale DI<br />

sintagma preposizionale DA<br />

Possiamo notare che nel caso in cui il costituente CP non ha motivo per la sua presenza nella<br />

struttura, cioè nella frase non ci sono costituenti anteposti o aggiunti <strong>di</strong> inizio frase, esso non<br />

apparirà. Per quanto riguarda il nodo F invece, esso apparirà anche se il soggetto non fosse espresso<br />

lessicalmente: risulterà quin<strong>di</strong> in<strong>di</strong>cativo delle frasi in cui appare il nodo IBAR, cioè il verbo flesso<br />

<strong>di</strong> tempo definito. Il nodo F apparirà nelle frasi ellittiche ma non nelle frasi <strong>di</strong> modo indefinito che<br />

sono invece in<strong>di</strong>viduate da no<strong>di</strong> SV con numeri che li <strong>di</strong>fferenziano.<br />

4.3.3 Costituenti Sostanziali<br />

Simbolo<br />

SN<br />

SA<br />

SAVV<br />

IBAR<br />

SV2<br />

SV3<br />

SV5<br />

Tipo <strong>di</strong> costituente<br />

sintagma nominale<br />

sintagma aggettivale<br />

sintagma avverbiale<br />

nucleo verbale a tempo finito<br />

frase infinitiva<br />

frase participiale<br />

frase gerun<strong>di</strong>va<br />

Anche in questo caso è necessario notare che il costituente IBAR non potrà mai apparire da solo,<br />

ma sempre in compagnia del suo nodo dominante F.<br />

4.4 Criteri <strong>di</strong> annotazione<br />

In questa sezione sono forniti criteri <strong>di</strong> annotazione per quanto concerne il livello sintattico a<br />

costituenti. In particolare, verranno prese in considerazione particolari costruzioni sintattiche e se ne<br />

specificherà il trattamento nell’ambito dello schema <strong>di</strong> annotazione adottato.<br />

38


Co<strong>di</strong>ce linea e Tema<br />

4.4.1 Costituenti minori, Mo<strong>di</strong>ficatori e Marcatori Semantici<br />

Nel SN, i determinatori e i mo<strong>di</strong>ficatori sia che precedano la testa o che la seguano vengono<br />

inclusi allo stesso livello della testa nominale. Mentre i determinatori sono privi <strong>di</strong> costituenza, tutti<br />

gli altri mo<strong>di</strong>ficatori portano la loro struttura sintattica. Si suppone che i determinatori (intendendo<br />

con questo termine articoli, quantificatori <strong>di</strong> vario genere, numeri) dovranno poi essere rappresentati<br />

nella funzione SPEC(ificatore).<br />

I complementatori vengono trattati come i determinatori, sono cioè privi <strong>di</strong> costituenza sintattica<br />

ma appaiono ad un livello separato: questo crea i presupposti per il loro trattamento al livello della<br />

rappresentazione funzionale, per il quale si rinvia alla sezione 5.1.1.1.2.1.<br />

Il processo <strong>di</strong> innalzamento si applica tipicamente alle informazioni associate al nucleo verbale,<br />

oppure a teste semantiche che introducono frasi subor<strong>di</strong>nate e coor<strong>di</strong>nate. Il nucleo verbale <strong>di</strong> modo<br />

finito, intendendo con la parola nucleo non solo il verbo principale ma anche i suoi ausiliari, si trova<br />

sempre associato a un costituente separato, IBAR. Per quanto riguarda invece i nuclei verbali <strong>di</strong><br />

modo non finito - infinito, participio e gerun<strong>di</strong>o semplici o composti - questi vengono tutti<br />

in<strong>di</strong>viduati da SVn, dove “n” sta per un numero che serve a specializzare il SV.<br />

La negazione viene trattata come avverbio ed è quin<strong>di</strong> <strong>di</strong>sponibile successivamente per essere<br />

interpretata al livello <strong>di</strong> rappresentazione adeguato, che però rimane al <strong>di</strong> fuori dei livelli previsti<br />

per la <strong>Treebank</strong> <strong>di</strong> SI-TAL: in ogni caso, tutte le eventuali operazioni semantiche <strong>di</strong> in<strong>di</strong>viduazione<br />

della portata o ambito della negazione potranno essere realizzate sia a partire dalla struttura<br />

sintattica, sia da quella funzionale.<br />

4.4.2 Costituenti vuoti<br />

La teoria LFG e tutte le sue derivazioni non prevedono nella rappresentazione sintattica la<br />

presenza <strong>di</strong> elementi vuoti. In pratica, la rappresentazione sintattica contiene tutto e solo il materiale<br />

lessicale <strong>di</strong> struttura superficiale. Questa è la strategia che si è deciso <strong>di</strong> seguire anche nel caso dello<br />

schema <strong>di</strong> annotazione a costituenti <strong>di</strong> SI-TAL.<br />

In particolare tutte le operazioni <strong>di</strong> raccordo tra elementi <strong>di</strong>slocati o spostati e il loro sito<br />

canonico - ve<strong>di</strong> il soggetto postverbale, l’oggetto preposto - non richiedono nella rappresentazione<br />

sintattica l’introduzione <strong>di</strong> tracce e altri tipi <strong>di</strong> elementi vuoti come marcaposto. E’ invece il livello<br />

funzionale a rendere conto delle relative relazioni <strong>di</strong> <strong>di</strong>pendenza. Lo stesso <strong>di</strong>scorso vale per le frasi<br />

passive, anche nel caso in cui il soggetto si trovi nella posizione preverbale canonica.<br />

Stessa sorte tocca a relazioni <strong>di</strong> <strong>di</strong>pendenza definite in LFG “a lunga <strong>di</strong>stanza”, cioè tutte quelle<br />

relazioni che si creano per la presenza <strong>di</strong> un pronome interrogativo o relativo, o del<br />

complementatore che: in nessun caso, appare nella struttura sintattica un costituente vuoto a fare da<br />

marcaposto. Queste relazioni vengono trattate nel livello funzionale, secondo le modalità illustrate<br />

nella sezione 5.2.5.<br />

Il soggetto vuoto non appare a livello <strong>di</strong> rappresentazione a costituenti, e viene introdotto al<br />

livello funzionale; per la sua rappresentazione si rinvia alle sezioni 5.1.1.1.1 e 5.2.4.1.<br />

Lo stesso ragionamento vale per il soggetto inespresso <strong>di</strong> frasi implicite <strong>di</strong> modo non finito, sia<br />

che si tratti <strong>di</strong> complementi o <strong>di</strong> aggiunti. Benché la teoria preveda operazioni ben <strong>di</strong>stinte in un<br />

caso o nell’altro, si sceglie <strong>di</strong> trattare entrambi i casi allo stesso modo. Nella struttura sintattica non<br />

appare alcun costituente per marcare il soggetto inespresso. A livello funzionale invece viene<br />

39


Co<strong>di</strong>ce linea e Tema<br />

inclusa la specificazione <strong>di</strong> un soggetto controllato, secondo quanto illustrato nella sezione 5.1.1.1.1<br />

(nel paragrafo relativo alla relazione soggetto).<br />

Strutture ellittiche <strong>di</strong> vario tipo sono integrate con l’informazione omessa a livello della<br />

realizzazione superficiale nell’annotazione funzionale secondo quanto illustrato nella sezione 5.2.4.<br />

4.4.3 Clitici<br />

I clitici meritano un <strong>di</strong>scorso a parte in quanto costituiscono un importante componente della<br />

struttura sintattica, sia a costituenti sia funzionale.<br />

I clitici sono trattati come sostituti lessicali <strong>di</strong> complementi o aggiunti. Vengono cioè trasformati<br />

in funzioni grammaticali corrispondenti, sulla base del caso lessicale e delle informazioni derivabili<br />

dal pre<strong>di</strong>cato reggente; per il loro trattamento al livello funzionale si rinvia alla sezione 5.2.5. La<br />

struttura a costituenti registra la loro presenza nella posizione superficiale in cui si trovano e ne<br />

copia il contenuto all’interno <strong>di</strong> un sintagma corrispondente.<br />

4.4.4 Il “SI” espletivo: inerente, passivante, me<strong>di</strong>o e impersonale<br />

Altri clitici espletivi sono quelli costituiti dalle varie interpretazioni del si: in particolare quelle<br />

che appaiono nelle frasi con verbi riflessivi inerenti come in Gianni si è arrabbiato, non richiedono<br />

un mapping nella struttura sintattica a costituenti. Il si passivante non contribuisce alcuna<br />

informazione aggiuntiva oltre all’informazione sulla <strong>di</strong>atesi passiva, come in il pane si mangia col<br />

prosciutto. Lo stesso vale per il si me<strong>di</strong>o che contribuisce informazione sia sulla <strong>di</strong>atesi, sia sul<br />

soggetto impersonale: da qui si vedono le montagne.<br />

Più in generale, il si impersonale svolge la funzione <strong>di</strong> in<strong>di</strong>viduare il soggetto impersonale, cioè<br />

un soggetto inespresso che assume il contenuto del quantificatore esistenziale, con tratti funzionali e<br />

semantici adeguati. Questa informazione viene travasata nel corrispondente costituente sintattico<br />

SN e utilizzata poi nel mapping in funzioni grammaticali.<br />

Altri si espletivi sono da considerarsi quelli in strutture ergative o incoative, come in il vaso<br />

improvvisamente si ruppe; e il si benefattivo o dativo etico <strong>di</strong> frasi del tipo: Gino si è bevuto una<br />

coca.<br />

4.4.5 Preposizioni e SP<br />

Tutte le preposizioni appariranno nella struttura a costituenti come testa del costituente SP<br />

corrispondente. Comunque, vi sono due tipi <strong>di</strong> costituenti SP: quelli normali e quelli retti dalla<br />

preposizione DI e sue forme derivate o dalla preposizione DA e sue forme derivate. Questa<br />

classificazione dei SP crea i presupposti per stabilire regole <strong>di</strong> corrispondenza tra la struttura a<br />

costituenti e la struttura funzionale.<br />

4.4.6 Modali e costruzioni perifrastiche <strong>di</strong> varia natura (aspettuali, causativi)<br />

Si tratta <strong>di</strong> costruzioni con verbi modali, aspettuali, utilizzati per perifrasi, causativi, in generale<br />

con i cosiddetti verbi a ristrutturazione. In questi casi, la testa lessicale non è costituita dal verbo<br />

che supporta la perifrasi ma dal verbo lessicale. Il loro trattamento al livello della struttura a<br />

40


Co<strong>di</strong>ce linea e Tema<br />

costituenti consiste in una “ristrutturazione” <strong>di</strong> IBAR, che vede il “sollevamento” del verbo<br />

lessicale e l’“abbassamento” del verbo modale/aspettuale/causativo al suo interno.<br />

Al fine <strong>di</strong> garantire l’omogeneità <strong>di</strong> trattamento dei dati linguistici tra i due livelli <strong>di</strong> annotazione<br />

sintattica nella <strong>Treebank</strong> <strong>di</strong> SI-TAL, si è deciso <strong>di</strong> limitare la tipologia dei verbi che provocano un<br />

sollevamento del verbo lessicale all’interno <strong>di</strong> IBAR a quelli nella lista che segue, a cui si devono<br />

aggiungere, ovviamente, i due ausiliari, essere e avere:<br />

• andare Vanno rifiutati tutti gli inviti<br />

• venire Vengano rifiutati tutti gli inviti<br />

• potere Può comprendere le loro richieste<br />

• volere Vuole comprendere le loro richieste<br />

• dovere Deve comprendere le loro richieste<br />

• stare Gino sta a guardare<br />

• stare per Gino sta per partire<br />

Al livello dell’annotazione, i seguenti casi:<br />

• verbi modali – dovere, volere, potere - e<br />

• verbi aspettuali – andare, venire, stare, stare per – <strong>di</strong> cui i primi due sono anche utilizzati<br />

per il passivo<br />

vanno inclusi nel costituente IBAR alla stessa stregua dei verbi ausiliari avere e essere e sono<br />

seguiti dal verbo lessicale nella sua forma al participio, all’infinito o al gerun<strong>di</strong>o.<br />

5 Annotazione funzionale<br />

Per il livello <strong>di</strong> annotazione funzionale, la <strong>Treebank</strong> <strong>di</strong> SI-TAL ha optato per uno schema <strong>di</strong><br />

annotazione funzionale tra parole piene (sostantivi, aggettivi e verbi): le motivazioni sottostanti a<br />

questa scelta sono dettagliate nel Rapporto della Linea 1.1 “Specifiche Tecniche”, sezione 4.1.4. In<br />

questa sede, riportiamo la versione finale delle specifiche <strong>di</strong> annotazione come risultanti al termine<br />

del processo <strong>di</strong> annotazione.<br />

Lo schema <strong>di</strong> annotazione funzionale adottato per la <strong>Treebank</strong> <strong>di</strong> SI-TAL ha preso le mosse dallo<br />

schema <strong>di</strong> annotazione elaborato nel progetto europeo SPARKLE (LE-2111), che a sua volta è stato<br />

rielaborato e rivisto ai fini della sua adozione nell’ambito <strong>di</strong> campagne <strong>di</strong> valutazione <strong>di</strong> analizzatori<br />

sintattici nell’ambito del progetto ELSE (LE4-8340). F.A.M.E (Functional Annotation Metascheme<br />

for Evaluation), lo schema elaborato in ELSE (Lenci et al. 1999a, 1999 b, 2000), è stato<br />

rivisto e specializzato rispetto alle peculiarità della lingua da annotare – l’italiano – ed alla sua<br />

adozione come schema <strong>di</strong> annotazione <strong>di</strong> una <strong>Treebank</strong>. Le specifiche ed i criteri <strong>di</strong> annotazione che<br />

seguono sono il risultato <strong>di</strong> questo processo <strong>di</strong> revisione e specializzazione.<br />

5.1 Specifiche <strong>di</strong> annotazione<br />

5.1.1 Tipologia delle relazioni funzionali<br />

Gli elementi <strong>di</strong> base dello schema <strong>di</strong> annotazione che proponiamo sono relazioni funzionali,<br />

dove con “relazione funzionale” si intende una relazione binaria sussistente tra due PARTECIPANTI:<br />

41


Co<strong>di</strong>ce linea e Tema<br />

all’interno dello schema proposto, i partecipanti ad una relazione funzionale sono costituiti soltanto<br />

da parole piene o lessicali. Sono quin<strong>di</strong> automaticamente escluse relazioni funzionali che<br />

riguardano parole grammaticali quali i determinativi, gli ausiliari, i complementatori, le<br />

preposizioni, etc. L’informazione riguardante questi elementi è co<strong>di</strong>ficata me<strong>di</strong>ante tratti associati ai<br />

partecipanti della relazione, come descritto <strong>di</strong> seguito.<br />

Ciascuna relazione funzionale è rappresentata come segue:<br />

tipo_<strong>di</strong>_relazione (partecipante_1.,<br />

partecipante_2.)<br />

“Tipo_<strong>di</strong>_relazione” specifica la relazione sussistente tra i due partecipanti. Ogni partecipante<br />

può anche ricevere una caratterizzazione rispetto ad un insieme <strong>di</strong> tratti che sono considerati<br />

rilevanti rispetto alla relazione che li lega.<br />

Le relazioni <strong>di</strong> <strong>di</strong>pendenza costituiscono un tipo particolare <strong>di</strong> relazione funzionale. Nel caso<br />

specifico, una relazione <strong>di</strong> <strong>di</strong>pendenza è costituita da una relazione binaria asimmetrica sussistente<br />

tra una TESTA ed un DIPENDENTE.<br />

relazione_<strong>di</strong>_<strong>di</strong>pendenza (testa.,<br />

<strong>di</strong>pendente.)<br />

La tipologia <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza <strong>di</strong> questo schema <strong>di</strong> annotazione è illustrata nella sezione<br />

5.1.1.1.<br />

Lo schema <strong>di</strong> annotazione della <strong>Treebank</strong> <strong>di</strong> SI_TAL include anche relazioni funzionali <strong>di</strong> altro<br />

tipo, ovvero relazioni simmetriche <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione per il trattamento della<br />

coor<strong>di</strong>nazione (sezione 5.1.1.2) e relazioni <strong>di</strong> coreferenza per il trattamento <strong>di</strong> frasi relative ed<br />

interrogative (sezione 5.1.1.3).<br />

5.1.1.1 Relazioni <strong>di</strong> <strong>di</strong>pendenza<br />

La tipologia delle relazioni <strong>di</strong> <strong>di</strong>pendenza previste dallo schema <strong>di</strong> annotazione della <strong>Treebank</strong> <strong>di</strong><br />

SI-TAL è organizzata gerarchicamente, in modo tale da permettere rappresentazioni sottospecificate<br />

che potrebbero essere utili per il trattamento <strong>di</strong> costruzioni realmente ambigue oppure controverse.<br />

In questo contesto, la relazione f j è una rappresentazione sottospecificata della relazione <strong>di</strong><br />

<strong>di</strong>pendenza f h se f j occupa un nodo progenitore del nodo associato a f h nella nostra gerarchia. Ad<br />

esempio la relazione “comp” sottospecifica “arg”, ma non “sogg”. Banalmente, il nodo “<strong>di</strong>p”, in<br />

quanto vertice della gerarchia, può essere usato per sottospecificare qualsiasi relazione.<br />

Nell’ambito <strong>di</strong> un’annotazione manuale il ricorso alla sottospecificazione è utile per ridurre il<br />

margine <strong>di</strong> arbitrarietà nelle scelte degli annotatori. Relazioni <strong>di</strong> <strong>di</strong>pendenza sottospecificate sono<br />

anche particolarmente cruciali: nel caso <strong>di</strong> un’annotazione automatica, quando l’analizzatore<br />

sintattico non abbia a <strong>di</strong>sposizione l’informazione necessaria per un’analisi completamente<br />

specificata; oppure, nell’ambito <strong>di</strong> campagne <strong>di</strong> valutazione, per evitare penalizzazioni arbitrarie <strong>di</strong><br />

analisi <strong>di</strong>vergenti ma in qualche misura compatibili.<br />

La gerarchia delle relazioni è strutturata come segue:<br />

42


Co<strong>di</strong>ce linea e Tema<br />

<strong>di</strong>p<br />

sogg<br />

comp<br />

mod<br />

arg<br />

pred<br />

non-pred<br />

ogg_d ogg_i obl<br />

Questa gerarchia separa il soggetto (sogg) rispetto alle altre relazioni grammaticali assegnandogli<br />

una posizione più alta all’interno dell’organizzazione delle funzioni sintattiche, come è usuale in<br />

molte teorie grammaticali (per esempio HPSG, GB). Inoltre, raggruppando i mo<strong>di</strong>ficatori (mod) e<br />

gli argomenti (arg) sotto lo stesso nodo dei complementi (comp), la gerarchia <strong>di</strong> relazioni proposta<br />

ammette la possibilità <strong>di</strong> lasciare sottospecificata la <strong>di</strong>stinzione tra mo<strong>di</strong>ficatore (o aggiunto) e<br />

argomento che non è sempre facile da applicare, specialmente rispetto all’uso reale della lingua. Il<br />

nodo “arg” è a sua volta sud<strong>di</strong>viso in “pred”, che raccoglie solo ed esclusivamente i complementi<br />

pre<strong>di</strong>cativi classici (pre<strong>di</strong>cativi del soggetto e dell’oggetto), e “non-pred”, che sussume i<br />

complementi non-pre<strong>di</strong>cativi, ovvero “ogg_d” (per gli oggetti <strong>di</strong>retti), “ogg_i” (per gli oggetti<br />

in<strong>di</strong>retti) e “obl” (per gli argomenti obliqui).<br />

Si noti che al livello <strong>di</strong> annotazione funzionale si rappresentano solo quei fenomeni che sono<br />

rilevanti per l’identificazione e/o specificazione <strong>di</strong> relazioni grammaticali (ad es. caso, <strong>di</strong>atesi, tratti<br />

<strong>di</strong> accordo etc.). Ne consegue che fenomeni come il tempo e l’aspetto verbale, l’ambito della<br />

negazione e l’ellissi interfrasale non sono trattati a questo livello in quanto considerati <strong>di</strong> pertinenza<br />

<strong>di</strong> un livello <strong>di</strong> rappresentazione logico-semantica che non trova una sua collocazione<br />

nell’architettura globale della <strong>Treebank</strong> <strong>di</strong> SI-TAL così come strutturata ad oggi. Analoga<br />

considerazione vale nel caso delle funzioni pragmatiche <strong>di</strong> topic e focus che sono al <strong>di</strong> fuori delle<br />

finalità del progetto in quanto sarebbero da trattare piuttosto ad un livello <strong>di</strong> rappresentazione<br />

pragmatica. Va comunque considerato che una <strong>Treebank</strong> come questa, dove l’annotazione è<br />

<strong>di</strong>stribuita su più livelli, è aperta ad integrazioni future. I fenomeni e le costruzioni che non trovano<br />

nella <strong>Treebank</strong> attuale una collocazione adeguata potranno dare luogo in futuro ad espansioni ed<br />

integrazioni della risorsa.<br />

Nei paragrafi che seguono, definiamo prima in maniera schematica ciascuna relazione <strong>di</strong><br />

<strong>di</strong>pendenza, per poi passare alla definizione dei tratti che possono essere associati alla testa e al<br />

<strong>di</strong>pendente.<br />

5.1.1.1.1 Inventario delle relazioni <strong>di</strong> <strong>di</strong>pendenza<br />

<strong>di</strong>p (testa, <strong>di</strong>pendente)<br />

<strong>di</strong>p(endenza) è la relazione più generica tra una testa e un <strong>di</strong>pendente, che rimane<br />

sottospecificata per quanto riguarda lo status <strong>di</strong> quest’ultimo. Come già osservato, questo<br />

livello <strong>di</strong> sottospecificazione può essere utile nei casi in cui l’informazione <strong>di</strong>sponibile non è<br />

sufficiente per la <strong>di</strong>sambiguazione. In particolare, <strong>di</strong>p può essere utile per trattare casi <strong>di</strong><br />

ambiguità reale tra soggetto e oggetto: ad esempio, sia chi che Maria possono essere<br />

43


Co<strong>di</strong>ce linea e Tema<br />

soggetto o oggetto nella completiva incassata della frase non so chi abbia incontrato Maria.<br />

In casi come questo, quando il contesto non sia <strong>di</strong> aiuto a capire chi incontra chi, si consiglia<br />

<strong>di</strong> ricorrere all’annotazione che segue:<br />

<strong>di</strong>p (incontrare, chi)<br />

<strong>di</strong>p (incontrare, Maria)<br />

sogg (testa, <strong>di</strong>pendente)<br />

In<strong>di</strong>ca la relazione tra un pre<strong>di</strong>cato e il suo sogg(etto):<br />

sogg (arrivare, Giovanni) Giovanni arrivò a Parigi<br />

sogg (assumere, Microsoft) La Microsoft ha assunto <strong>di</strong>eci programmatori<br />

sogg (assumere, Paolo) Paolo è stato assunto dalla Microsoft<br />

sogg si riferisce al soggetto superficiale della frase: come illustrano gli esempi sopra, viene<br />

assegnato in<strong>di</strong>pendentemente dalla <strong>di</strong>atesi attiva o passiva della testa verbale (a sua volta<br />

co<strong>di</strong>ficata come tratto associato alla testa, cfr sezione 5.1.1.1.2.2). Il soggetto logico non è<br />

marcato esplicitamente a livello <strong>di</strong> relazione, bensì al livello <strong>di</strong> tratti associati al <strong>di</strong>pendente<br />

(cfr sezione 5.1.1.1.2.1).<br />

La stessa relazione sogg è anche usata per marcare il verbo in frasi completive con funzione<br />

<strong>di</strong> soggetto, come illustrato dagli esempi che seguono.<br />

sogg (significare, partire) che Maria sia partita significa che si è arresa<br />

sogg (richiedere, vincere) vincere la gara richiede un grosso impegno<br />

sogg (essere, partire) è necessario partire presto<br />

Con lingue pro-drop come l’italiano, casi <strong>di</strong> soggetto “nullo” o ellittico, che si verificano<br />

quando il soggetto non è superficialmente realizzato, vengono trattati me<strong>di</strong>ante<br />

un’annotazione parziale, esemplificata <strong>di</strong> seguito:<br />

sogg (arrivare, .) arrivai in ritardo<br />

dove i) l’elemento <strong>di</strong>pendente non è specificato a livello lessicale e ii) le caratteristiche<br />

morfo-sintattiche del soggetto, corrispondenti alla persona, al numero e al genere (qualora<br />

rilevante), sono co<strong>di</strong>ficate in termini <strong>di</strong> tratti associati al <strong>di</strong>pendente (si veda la sezione<br />

5.1.1.1.2.1 per maggiori dettagli). Questa soluzione è stata messa a punto per evitare<br />

rappresentazioni troppo <strong>di</strong>pendenti da una teoria specifica ed al contempo fornire una<br />

rappresentazione il più informativa possibile; si è preferita, ad esempio, ad una co<strong>di</strong>fica del<br />

tipo “sogg (arrivare, pro)” che tratta il pro-drop nei termini <strong>di</strong> una relazione tra una testa<br />

verbale ed un elemento vuoto (pro) che a sua volta necessiterebbe <strong>di</strong> una caratterizzazione<br />

da un punto <strong>di</strong> vista morfo-sintattico. In questo modo, viene anche garantita la comparabilità<br />

e la compatibilità con approcci <strong>di</strong>versi.<br />

La relazione sogg è usata inoltre per contrassegnare il soggetto “implicito” <strong>di</strong> completive<br />

infinitivali con funzione <strong>di</strong> complemento in costruzioni a controllo e a sollevamento<br />

(<strong>di</strong>stinzione, questa, che non appare rilevante dal punto <strong>di</strong> vista dell’annotazione funzionale)<br />

così come <strong>di</strong> infinitive, participiali e gerun<strong>di</strong>ve con funzione <strong>di</strong> mo<strong>di</strong>ficatore, come illustrato<br />

dagli esempi che seguono:<br />

sogg (partire, Giovanni) Giovanni promise a Maria <strong>di</strong> partire<br />

sogg (partire, Maria) Giovanni or<strong>di</strong>nò a Maria <strong>di</strong> partire<br />

sogg (partire, Maria) Maria fu costretta a partire<br />

sogg (arrivare, Giovanni) Giovanni sembra arrivare domani<br />

sogg (arrivare, Giovanni) Essendo arrivato presto, Giovanni vide tutta la partita<br />

44


Co<strong>di</strong>ce linea e Tema<br />

sogg (finire, Giovanni) Finito il lavoro, Giovanni partì<br />

sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro<br />

La relazione sogg è usata infine per contrassegnare il soggetto <strong>di</strong> complementi pre<strong>di</strong>cativi<br />

(del soggetto o dell’oggetto), come illustrato <strong>di</strong> seguito:<br />

sogg (intelligente, Giovanni) Giovanni è intelligente<br />

sogg (intelligente, Maria) Giovanni considera Maria intelligente<br />

sogg (genio, Maria) Maria è considerata un genio<br />

Con questi due ultimi insiemi <strong>di</strong> casi - il soggetto implicito <strong>di</strong> frasi completive <strong>di</strong> modo non<br />

finito ed il soggetto <strong>di</strong> complementi pre<strong>di</strong>cativi - lo schema proposto va al <strong>di</strong> là del dominio<br />

proprio della sintassi <strong>di</strong> superficie e include informazione relativa alla struttura pre<strong>di</strong>catoargomento:<br />

in particolare, fornisce in<strong>di</strong>cazione esplicita i) riguardo al soggetto del verbo<br />

nella frase incassata quando controllato da un argomento della testa verbale della frase<br />

matrice e ii) riguardo al soggetto <strong>di</strong> complementi pre<strong>di</strong>cativi. Abbiamo deciso comunque <strong>di</strong><br />

includerla per garantire la compatibilità della <strong>Treebank</strong> con schemi <strong>di</strong> annotazione sintattica<br />

che marcano soggetti “impliciti” <strong>di</strong> frasi incassate (in vista, ad esempio, <strong>di</strong> un uso della<br />

<strong>Treebank</strong> a fini <strong>di</strong> valutazione) oppure che trattano il complemento pre<strong>di</strong>cativo in termini <strong>di</strong><br />

frase ridotta selezionata dal verbo reggente.<br />

comp (testa, <strong>di</strong>pendente)<br />

comp marca in modo generico la relazione tra una testa ed un complemento, sia esso<br />

mo<strong>di</strong>ficatore o argomento. Questa relazione funzionale sottospecificata è particolarmente<br />

utile in quei casi in cui è <strong>di</strong>fficile stabilire la natura argomentale o <strong>di</strong> mo<strong>di</strong>ficatore del<br />

complemento. Per esempio, consideriamo la frase Giovanni spinse la macchina verso la<br />

stazione dove, a seconda dei criteri <strong>di</strong> selezione adottati, verso la stazione può essere<br />

considerato come un mo<strong>di</strong>ficatore o come un argomento. La caratterizzazione come comp<br />

riportata sotto rimane compatibile con entrambe le analisi, non costringendo l’annotatore a<br />

decisioni arbitrarie e/o premature:<br />

comp (spingere, stazione)<br />

Questa relazione risulta particolarmente utile nei seguenti casi:<br />

• co<strong>di</strong>fica della relazione tra un nome ed un suo complemento preposizionale. Si<br />

confrontino i seguenti casi:<br />

comp (professore, fisica) il professore <strong>di</strong> fisica<br />

comp (padre, Maria) il padre <strong>di</strong> Maria<br />

l’annotazione nei termini <strong>di</strong> comp mantiene sottospecificata la natura del<br />

complemento, che non è sempre facile da stabilire in modo univoco.<br />

• co<strong>di</strong>fica della relazione tra una testa ed un argomento semantico che sia<br />

sintatticamente realizzato come un mo<strong>di</strong>ficatore. Questo è il caso, ad esempio,<br />

dell’agente espresso nella costruzione passiva come un complemento preposizionale<br />

introdotto dalla preposizione “da”: la sua natura <strong>di</strong> “aggiunto tematicamente legato”<br />

è messa in evidenza dalla sua co<strong>di</strong>fica in termini <strong>di</strong> comp, come esemplificato nel<br />

frammento <strong>di</strong> annotazione che segue:<br />

comp (uccidere, Bruto) fu ucciso da Bruto<br />

Nell’annotazione della <strong>Treebank</strong> <strong>di</strong> SI-TAL il ricorso alla relazione comp è stato limitato ai<br />

casi in cui non è stato possibile decidere se la relazione <strong>di</strong> <strong>di</strong>pendenza in questione sia <strong>di</strong><br />

45


Co<strong>di</strong>ce linea e Tema<br />

mo<strong>di</strong>ficazione oppure <strong>di</strong> argomento. A questo proposito, l’annotatore ha avuto a<br />

<strong>di</strong>sposizione una batteria <strong>di</strong> criteri per <strong>di</strong>scriminare i due casi (illustrati nella sezione 5.2.1): i<br />

casi che rimarranno incerti verranno annotati in modo sottospecificato, ovvero in termini <strong>di</strong><br />

comp.<br />

mod (testa, <strong>di</strong>pendente)<br />

La relazione mod sussiste tra una testa e il suo mo<strong>di</strong>ficatore, come illustrato dai seguenti<br />

casi:<br />

• mo<strong>di</strong>ficazione aggettivale<br />

mod (ban<strong>di</strong>era, rosso) una ban<strong>di</strong>era rossa<br />

• mo<strong>di</strong>ficazione avverbiale<br />

mod (camminare, lentamente) camminare lentamente<br />

• mo<strong>di</strong>ficazione con sintagma preposizionale<br />

mod (camminare, calma) camminare con calma<br />

• apposizione<br />

mod (Picasso, pittore) Picasso il pittore<br />

• mo<strong>di</strong>ficazione frasale<br />

mod (camminare, parlare) camminava parlando<br />

mod (mangiare, chiedere) ha mangiato i dolci dopo averlo chiesto<br />

mod (mangiare, chiedere) ha mangiato i dolci senza chiedere<br />

Confrontando gli esempi sopra, si può notare che la relazione mod copre mo<strong>di</strong>ficatori frasali<br />

e non.<br />

arg (testa, <strong>di</strong>pendente)<br />

arg in<strong>di</strong>ca la relazione più generica intercorrente tra una testa ed un suo argomento. Oltre a<br />

casi in cui la sottospecificazione relativa alla funzione dell’argomento appaia opportuna,<br />

questa relazione viene normalmente usata per etichettare la relazione intercorrente tra una<br />

testa verbale e una completiva non soggetto (sia essa infinitiva o meno), come illustrato dai<br />

seguenti casi:<br />

arg (promettere, accettare) Giovanni ha promesso <strong>di</strong> accettare il lavoro<br />

arg (or<strong>di</strong>nare, partire) Giovanni ha or<strong>di</strong>nato a Maria <strong>di</strong> partire<br />

arg (<strong>di</strong>re, accettare) Giovanni ha detto che avrebbe accettato il lavoro<br />

arg (informare, andare) Giovanni ha informato Maria che sarebbe andato<br />

arg (promettere, andare) Giovanni ha promesso a Maria che sarebbe andato<br />

Questo tipo <strong>di</strong> co<strong>di</strong>fica della funzione delle completive complemento parte dalla<br />

constatazione dell’ampia variabilità della funzione loro assegnata nell’ambito <strong>di</strong> <strong>di</strong>verse<br />

teorie grammaticali e <strong>di</strong> <strong>di</strong>versi analizzatori sintattici (caso che invece non si verifica nel<br />

caso <strong>di</strong> soggetti <strong>di</strong> tipo frasale che sono <strong>di</strong> più facile identificazione). Ad esempio, la<br />

completiva infinitivale della frase Maria ha deciso <strong>di</strong> partire è classificata come oggetto<br />

<strong>di</strong>retto nello schema <strong>di</strong> annotazione della Constraint Grammar (Karlsson et al. 1995) mentre<br />

è caratterizzata come complemento pre<strong>di</strong>cativo non saturato (xcomp) nella LFG così come<br />

nello schema <strong>di</strong> annotazione avanzato nel progetto europeo SPARKLE. L’analisi qui<br />

46


Co<strong>di</strong>ce linea e Tema<br />

proposta, integrata con informazione co<strong>di</strong>ficata in termini <strong>di</strong> tratti <strong>di</strong>stintivi (si veda il tratto<br />

status <strong>di</strong>scusso nella sezione 5.1.1.1.2.1), rimane così comparabile e compatibile con un<br />

ampio spettro <strong>di</strong> analisi senza per<strong>di</strong>ta <strong>di</strong> informazione.<br />

pred (testa, <strong>di</strong>pendente)<br />

pred contrassegna la relazione che sussiste tra una testa verbale ed un complemento<br />

pre<strong>di</strong>cativo, sia esso un complemento pre<strong>di</strong>cativo del soggetto o un complemento<br />

pre<strong>di</strong>cativo dell’oggetto.<br />

pred (essere, intelligente) Giovanni è intelligente<br />

pred (considerare, genio) Giovanni considera Maria un genio<br />

La <strong>di</strong>stinzione tra pre<strong>di</strong>cativo del soggetto e pre<strong>di</strong>cativo dell’oggetto è ricavabile dalla<br />

rappresentazione complessiva della frase (si veda la sezione 5.2.2.10). Al livello della<br />

singola relazione ci limitiamo a marcare la natura pre<strong>di</strong>cativa del complemento rispetto alla<br />

testa verbale.<br />

non-pred (testa, <strong>di</strong>pendente)<br />

Nella gerarchia delle relazioni funzionali riportata sopra, non-pred è il nodo che raggruppa<br />

complementi non pre<strong>di</strong>cativi. Non si prevedono, ad oggi, casi in cui questa relazione sia<br />

usata per trattare casi ambigui che richiedano una sottospecificazione a questo livello.<br />

ogg_d (testa, <strong>di</strong>pendente)<br />

ogg_d è la relazione che sussiste tra un pre<strong>di</strong>cato e il suo oggetto <strong>di</strong>retto (sempre nonfrasale),<br />

cioè:<br />

ogg_d (leggere, libro) Giovanni ha letto molti libri<br />

ogg_i (testa, <strong>di</strong>pendente)<br />

ogg_i è la relazione tra un pre<strong>di</strong>cato e un oggetto in<strong>di</strong>retto, cioè il complemento che esprime<br />

l’entità che accoglie l’azione espressa dal verbo, come esemplificato dai casi che seguono:<br />

ogg_i (parlare, Maria) Giovanni parla a Maria<br />

ogg_i (dare, Maria) Giovanni <strong>di</strong>ede a Maria il contratto<br />

ogg_i (dare, Maria) Giovanni <strong>di</strong>ede il contratto a Maria<br />

ogg_i (parlare, le) Giovanni le parla<br />

Un test cruciale per l’identificazione <strong>di</strong> questa relazione è costituito dalla<br />

pronominalizzazione dell’ogg_i con un dativo (si veda sotto).<br />

obl (testa, <strong>di</strong>pendente)<br />

obl è la relazione tra un pre<strong>di</strong>cato e un complemento non frasale, non <strong>di</strong>retto e non in<strong>di</strong>retto,<br />

realizzato tipicamente in forma <strong>di</strong> sintagma preposizionale:<br />

obl (vivere, Roma) Giovanni vive a Roma<br />

obl (arrivare, aeroporto) Giovanni arrivò all’aeroporto<br />

obl (informare, arrivo) Giovanni informò Maria del suo arrivo<br />

obl (comportarsi, freddezza) Giovanni si comportò con freddezza<br />

47


Co<strong>di</strong>ce linea e Tema<br />

Come accennato sopra, la <strong>di</strong>stinzione tra oggetto in<strong>di</strong>retto e complemento obliquo è<br />

supportata dal <strong>di</strong>verso tipo <strong>di</strong> pronominalizzazione dei due complementi. Si confrontino le<br />

seguenti coppie <strong>di</strong> frasi:<br />

1. Giovanni ha dato un libro a Maria<br />

Giovanni le ha dato un libro<br />

2. Giovanni aspirava a Maria<br />

*Giovanni le aspirava<br />

dove a Maria è un oggetto in<strong>di</strong>retto in 1. e in quanto tale è pronominalizzato con il dativo le,<br />

mentre è un complemento obliquo in 2., dove la pronominalizzazione con il pronome dativo<br />

risulta in una frase sintatticamente mal formata.<br />

La relazione obl è anche usata per marcare la <strong>di</strong>pendenza tra un verbo e complementi<br />

avverbiali la cui selezione è governata a livello lessicale; ad esempio:<br />

obl (comportarsi, bene) Giovanni si comportò bene<br />

5.1.1.1.2 Tratti associati agli elementi della relazione <strong>di</strong> <strong>di</strong>pendenza<br />

Nello schema <strong>di</strong> annotazione adottato, un ruolo centrale è ricoperto dai tratti associati ad<br />

entrambi gli elementi della relazione <strong>di</strong> <strong>di</strong>pendenza.<br />

In ciò che segue i due insiemi <strong>di</strong> tratti sono <strong>di</strong>scussi separatamente, prima i tratti del DIPENDENTE,<br />

poi quelli della TESTA, infine quelli comuni a entrambi. Si noti che i tratti sono aggiunti alla<br />

specificazione del DIPENDENTE e della TESTA, tra parentesi uncinate e preceduti da un punto. Al fine<br />

<strong>di</strong> rendere l’annotazione più leggibile, negli esempi forniti <strong>di</strong> seguito i tratti specificati sono solo<br />

quelli in corso <strong>di</strong> definizione. Ovviamente un’annotazione completa include, per ogni elemento<br />

della relazione, l’insieme completo dei tratti rilevanti nel contesto specifico.<br />

5.1.1.1.2.1 Tratti <strong>di</strong>stintivi del DIPENDENTE<br />

• introdep<br />

Il tratto introdep è usato in una varietà <strong>di</strong> costruzioni <strong>di</strong>verse per specificare l’elemento<br />

grammaticale, generalmente una preposizione o una congiunzione, che “introduce” il<br />

<strong>di</strong>pendente. La natura <strong>di</strong> questo “introduttore” varia a seconda della relazione funzionale e del<br />

tipo <strong>di</strong> <strong>di</strong>pendente: ad esempio può trattarsi <strong>di</strong> preposizione nel caso <strong>di</strong> complementi nominali,<br />

oppure congiunzione nel caso <strong>di</strong> completive <strong>di</strong> modo finito. Alcuni esempi seguono:<br />

• caso<br />

ogg_i (dare, Maria.) dare a Maria<br />

comp (uccidere, Bruto.) fu ucciso da Bruto<br />

arg (<strong>di</strong>re, accettare.) Giovanni ha detto che accetterà il lavoro<br />

arg (decidere, lasciare.) Giovanni ha deciso <strong>di</strong> lasciare il lavoro<br />

mod (camminare, parlare.) camminava mentre parlava<br />

Il tratto caso, la cui realizzazione morfosintattica si limita in italiano ad alcuni pronomi<br />

personali soltanto, risulta utile a supporto dell’identificazione della relazione <strong>di</strong> <strong>di</strong>pendenza.<br />

Suoi possibili valori sono “dativo/accusativo”:<br />

• status<br />

ogg_i (dare,gli.) dargli<br />

48


Co<strong>di</strong>ce linea e Tema<br />

Il tratto status è associato a <strong>di</strong>pendenti verbali ed è usato per <strong>di</strong>scriminare tra<br />

soggetti/complementi frasali con la valenza soggetto saturata e soggetti/complementi frasali con<br />

soggetto controllato da <strong>di</strong>pendenze esterne. I possibili valori associati a questo tratto sono<br />

“aperto/chiuso”:<br />

• aperto – marca un soggetto o complemento (sia esso argomento o mo<strong>di</strong>ficatore) <strong>di</strong> tipo<br />

frasale il cui soggetto è controllato da una testa con la quale non esiste una esplicita e <strong>di</strong>retta<br />

relazione <strong>di</strong> <strong>di</strong>pendenza (questo implica, ad esempio, che la relazione non è marcata<br />

dall’accordo grammaticale):<br />

arg (decidere, partire.) Giovanni decise <strong>di</strong> partire<br />

mod (aspettare, arrivare.) essendo arrivati presto, abbiamo<br />

aspettato l’incontro<br />

sogg (richiedere, vincere.) vincere l’America’s Cup richiede<br />

montagne <strong>di</strong> sol<strong>di</strong><br />

• chiuso – marca un soggetto o complemento (sia esso argomento o mo<strong>di</strong>ficatore) frasale il<br />

cui soggetto non è controllato da <strong>di</strong>pendenze esterne:<br />

• modo<br />

arg (<strong>di</strong>re, partire.) Giovanni <strong>di</strong>sse che Maria<br />

sarebbe partita domani<br />

mod (mangiare, affamato.) ha mangiato il<br />

dolce perché era affamato<br />

sogg (essere, ingoiare.) che i governi europei<br />

debbano silenziosamente ingoiarle non è giusto<br />

Il tratto modo del <strong>di</strong>pendente è usato, nel caso <strong>di</strong> soggetti/complementi frasali, per specificare il<br />

modo della testa verbale. Suoi possibili valori sono “gerun<strong>di</strong>o / part_pass / inf / partic.pres /<br />

cong / ind / cond”:<br />

mod (camminare, parlare.) Camminava parlando<br />

mod (partire, finire.) Finito il lavoro, Maria partì<br />

arg (decidere, partire.< modo=inf>) Giovanni decise <strong>di</strong> partire<br />

mod (aspettare, arrivare.< modo=gerun<strong>di</strong>o >) essendo arrivati presto, abbiamo<br />

aspettato l’incontro<br />

sogg (richiedere, vincere.< modo=inf>) vincere l’America’s Cup richiede montagne<br />

<strong>di</strong> sol<strong>di</strong><br />

Per quanto questo tipo <strong>di</strong> informazione è già incluso nell’input che è annotato morfosintatticamente,<br />

viene riportato in questa sede in quanto rilevante per la caratterizzazione della<br />

relazione <strong>di</strong> <strong>di</strong>pendenza.<br />

• ruolo<br />

Il tratto ruolo è usato per fornire una caratterizzazione semantica alla relazione <strong>di</strong> <strong>di</strong>pendenza,<br />

ovvero per rendere esplicito, quando necessario, il ruolo semantico del <strong>di</strong>pendente rispetto alla<br />

testa. Si ricorre a questo tratto quando l’informazione sintattico-funzionale non sia sufficiente a<br />

caratterizzare in modo univoco la relazione. Si prenda ad esempio il caso del complemento <strong>di</strong><br />

agente in costruzioni passive: a livello <strong>di</strong> relazione la sua co<strong>di</strong>fica è in termini <strong>di</strong> comp, ma da<br />

questa co<strong>di</strong>fica (combinata con la <strong>di</strong>atesi della testa verbale) non è possibile risalire in modo<br />

certo all’interpretazione dell'agente, informazione che per certe applicazioni (ad esempio la<br />

traduzione automatica) è cruciale. Analoghe considerazioni valgono nel caso <strong>di</strong> complementi<br />

temporali, locativi e comparativi. Si vedano gli esempi che seguono:<br />

49


Co<strong>di</strong>ce linea e Tema<br />

comp (uccidere, Bruto.) fu ucciso da Bruto<br />

arg (partire, Roma.) è partito da Roma<br />

mod (partire, ora.) è partito da un’ora<br />

comp (migliore, insegnante.) è migliore dell’insegnante<br />

Si ricorre al tratto ruolo anche per marcare costruzioni con superlativo relativo che prevedono<br />

una restrizione dell’ambito <strong>di</strong> applicazione dell’aggettivo. Ad esempio, in il ragazzo più<br />

prestigioso d’America la relazione tra l’aggettivo ed il <strong>di</strong>pendente che ne restringe l’ambito è<br />

co<strong>di</strong>ficata in termini <strong>di</strong> comp; il <strong>di</strong>pendente è inoltre descritto come “ambito” <strong>di</strong> applicazione<br />

della testa aggettivale (ruolo=ambito) come esemplificato <strong>di</strong> seguito:<br />

mod (ragazzo, prestigioso)<br />

mod (prestigioso, più)<br />

comp (prestigioso, America< introdep=“<strong>di</strong>”; ruolo=“ambito”>)<br />

Il tratto ruolo è infine usato per marcare nell'annotazione il grado superlativo assoluto <strong>di</strong> un<br />

aggettivo: in questo caso il valore assegnato a ruolo è “superlativo” come esemplificato <strong>di</strong><br />

seguito:<br />

Il più vistoso è quello situato in basso<br />

mod (vistoso, più)<br />

pred (è, vistoso)<br />

Il tratto ruolo ha dunque come possibili valori: “agente / temporale / locativo / compar /<br />

superlativo / ambito”.<br />

5.1.1.1.2.2 Tratti <strong>di</strong>stintivi della TESTA<br />

• <strong>di</strong>at(esi)<br />

Il tratto <strong>di</strong>at specifica la <strong>di</strong>atesi <strong>di</strong> una testa verbale. Suoi possibili valori sono<br />

“attivo/passivo/me<strong>di</strong>o”.<br />

sogg (assumere., Microsoft) La Microsoft ha assunto Paolo<br />

sogg (assumere., Paolo) Paolo fu assunto dalla Microsoft<br />

sogg (vendere., casa) Questa casa si vende bene<br />

• syn_form<br />

Il tratto syn_form specifica la forma personale/impersonale <strong>di</strong> una testa verbale. Questo tratto<br />

ha come possibili valori “pers / impers/ si_impers”.<br />

sogg (assumere.< syn_form=pers >, Microsoft) La Microsoft ha assunto Paolo<br />

arg (bisogna., <strong>di</strong>scutere) Bisogna <strong>di</strong>scutere <strong>di</strong> queste cose<br />

arg(<strong>di</strong>re., tornare) Si <strong>di</strong>ce che non tornerà<br />

Con il valore “si_impers” vengono marcati quei casi in cui il “si” marca l'uso impersonale <strong>di</strong> un<br />

verbo che solitamente ammette un soggetto (es. si va, si pensa <strong>di</strong> arrivare domani). Secondo<br />

alcune teorie, il “si” impersonale può essere considerato il soggetto vero e proprio della<br />

proposizione in cui compare. La nostra strategia <strong>di</strong> annotazione delle costruzioni impersonali<br />

consiste a) nello specificare l'uso impersonale del verbo (marcato dal “si”) al livello della testa<br />

verbale come esemplificato sopra e b) nell'omettere la specificazione della relazione <strong>di</strong> soggetto<br />

(che rimane indefinito).<br />

• reflex<br />

50


Co<strong>di</strong>ce linea e Tema<br />

Il tratto reflex viene usato per la caratterizzazione <strong>di</strong> teste verbali con pronomi riflessivi. Viene<br />

<strong>di</strong>stinta la seguente tipologia <strong>di</strong> casi:<br />

• pers(ona)<br />

• verbi riflessivi: al tratto reflex viene assegnato il valore “rifl”, come esemplificato <strong>di</strong><br />

seguito:<br />

ogg_d (guardare., mi) Mi guardo allo specchio<br />

Si noti che in questo caso la co<strong>di</strong>fica dell'informazione avviene anche al livello della<br />

relazione <strong>di</strong> <strong>di</strong>pendenza: infatti il pronome riflessivo rappresenta un argomento del verbo<br />

con ruolo proprio e viene dunque posto in relazione <strong>di</strong> ogg_d con il verbo.<br />

• verbi intransitivi pronominali: il pronome riflessivo non rappresenta un argomento del<br />

verbo ma appare obbligatoriamente insieme a certi verbi nei seguenti casi:<br />

o variante intransitiva <strong>di</strong> una parte dei verbi ergativi (es. capovolgersi, rompersi): in<br />

questo caso il pronome riflessivo è un semplice segnale dell'intransitività del<br />

verbo rispetto alla variante transitiva:<br />

sogg (capovolgersi., barca) La barca si è capovolta<br />

o verbi inerentemente riflessivi, in cui il pronome riflessivo non convoglia nessun<br />

significato particolare (es. pentirsi, avvalersi)<br />

sogg (pentirsi., Giovanni) Giovanni si è pentito<br />

In questi casi il valore assegnato a reflex è “ipron”.<br />

• riflessivi apparenti: in questo caso il valore assegnato a reflex è “rifl_app”:<br />

ogg_d (lavare., mano) Giovanni si lava le mani<br />

• “si” passivante: si tratta <strong>di</strong> un uso non lessicalizzato in cui il “si” può essere visto come<br />

una marca della passività del verbo nella costruzione specifica:<br />

sogg (mangiare.< reflex=“passivo”>, mela) Le mele si mangiano con le mani<br />

In questo caso il valore assegnato a reflex è “passivo”.<br />

pers specifica la persona <strong>di</strong> una testa verbale. Suoi possibili valori sono “1/2/3”:<br />

• num(ero)<br />

sogg (mangiare., Mario) Mario mangia una pizza<br />

num specifica il numero <strong>di</strong> una testa verbale. Suoi possibili valori sono “sing/plur”:<br />

• gen(ere)<br />

sogg (mangiare., Mario) Mario mangia una pizza<br />

gen specifica, ove rilevante (ovvero con verbi con <strong>di</strong>atesi passiva o me<strong>di</strong>a, oppure con tempi<br />

composti), il genere <strong>di</strong> una testa verbale. Suoi possibili valori sono “mas/fem”:<br />

sogg (arrivare., Maria) Maria è arrivata<br />

51


Co<strong>di</strong>ce linea e Tema<br />

Per quanto l’informazione relativa alla persona, genere e numero sia già co<strong>di</strong>ficata nel file <strong>di</strong><br />

input annotato morfo-sintatticamente, questi tratti sono <strong>di</strong>scussi in questa sede in quanto rilevanti<br />

per una completa caratterizzazione della relazione <strong>di</strong> <strong>di</strong>pendenza.<br />

5.1.1.1.2.3 Tratti <strong>di</strong>stintivi della TESTA e del DIPENDENTE<br />

Per quanto riguarda i nomi, sia nel ruolo <strong>di</strong> testa sia in quello <strong>di</strong> <strong>di</strong>pendente, si è decisa la<br />

co<strong>di</strong>fica dei seguenti tratti:<br />

• quant(ificazione): il cui valore è costituito da un quantificatore.<br />

ogg_d (vedere, gatto.) ho visto molti gatti<br />

• card(inalità): il cui valore è costituito da un numero car<strong>di</strong>nale.<br />

ogg_d (vedere, gatto.) ho visto due gatti<br />

• def(initezza): i cui possibili valori sono “+/ - /0”.<br />

ogg_d (vedere, gatto.) ho visto il gatto<br />

ogg_d (vedere, gatto.) ho visto un gatto<br />

ogg_d (vedere, gatto.) ho visto gatti<br />

• aux e perifra<br />

Per quanto riguarda i verbi, sia nel ruolo <strong>di</strong> testa sia in quello <strong>di</strong> <strong>di</strong>pendente, si è decisa la<br />

co<strong>di</strong>fica dei tratti aux e perifra per la descrizione <strong>di</strong> alcune costruzioni verbali perifrastiche.<br />

Sono co<strong>di</strong>ficate in modo sintetico (ovvero in termini <strong>di</strong> tratti associati ad un’unica testa<br />

lessicale) le costruzioni perifrastiche con i verbi essere e avere, così come con andare,<br />

venire, potere, volere, dovere e stare (per la tipologia <strong>di</strong> costruzioni coperte si rinvia alla<br />

sezione 4.4.6). Aux viene usato per la descrizione <strong>di</strong> tempi composti con i verbi ausiliari<br />

essere e avere; a perifra si ricorre negli altri casi, ovvero essere nella costruzione passiva, e<br />

tutti gli altri verbi modali e aspettuali. Ad esempio:<br />

ogg_d (vedere., gatto) ho visto i gatti<br />

sogg (vedere., gatto) sono stati visti molti gatti<br />

mod (arrivare., domani) devono arrivare domani<br />

Nei casi <strong>di</strong> ellissi dell'ausiliare o del verbo servile, il valore assegnato all'attributo aux o<br />

perifra è seguito da un * (si veda la sezione 5.2.4.3 per una esemplificazione esaustiva <strong>di</strong><br />

questo caso).<br />

5.1.1.2 Relazioni simmetriche <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione<br />

Oltre alle relazioni <strong>di</strong> <strong>di</strong>pendenza descritte sopra, lo schema proposto include anche relazioni<br />

simmetriche per il trattamento della coor<strong>di</strong>nazione.<br />

52


Co<strong>di</strong>ce linea e Tema<br />

La coor<strong>di</strong>nazione è trattata me<strong>di</strong>ante relazioni simmetriche <strong>di</strong> congiunzione (cong) e <strong>di</strong><br />

<strong>di</strong>sgiunzione (<strong>di</strong>sg). Si consideri, ad esempio, la frase Giovanni e Maria sono arrivati, contenente<br />

un soggetto congiunto. Alla sua rappresentazione in termini <strong>di</strong> <strong>di</strong>pendenze riportata sotto:<br />

sogg (arrivare, Giovanni)<br />

sogg (arrivare, Maria)<br />

si aggiunge la specificazione della relazione <strong>di</strong> congiunzione che segue:<br />

cong (Giovanni, Maria)<br />

La rappresentazione della frase Giovanni o Maria sono arrivati non <strong>di</strong>fferirà a livello <strong>di</strong> relazioni<br />

<strong>di</strong> <strong>di</strong>pendenza; l’unica <strong>di</strong>fferenza riguarda la relazione tra Giovanni e Maria che in questo caso è <strong>di</strong><br />

<strong>di</strong>sgiunzione:<br />

<strong>di</strong>sg (Giovanni, Maria)<br />

5.1.1.2.1 Tratti <strong>di</strong>stintivi del partecipante in relazioni simmetriche<br />

L’unico tratto <strong>di</strong>stintivo specifico dei partecipanti a relazioni simmetriche <strong>di</strong> congiunzione o<br />

<strong>di</strong>sgiunzione è costituito da introsim: viene impiegato per co<strong>di</strong>ficare gli introduttori, tipicamente<br />

congiunzioni, dei partecipanti nella relazione specifica. Ad esempio:<br />

Sia Giovanni che Maria sono arrivati<br />

sogg (arrivare, Giovanni)<br />

sogg (arrivare, Maria)<br />

cong (Giovanni., Maria.)<br />

Manca non solo pane ma anche latte<br />

sogg (mancare, pane)<br />

sogg (mancare, latte)<br />

cong (pane, latte.)<br />

5.1.1.3 Relazioni <strong>di</strong> coreferenza<br />

In questa sezione, trattiamo l’annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza, che sarà circoscritta a<br />

relazioni <strong>di</strong> coreferenza <strong>di</strong> chiara natura sintattica ed interne alla singola frase. Questa restrizione<br />

consegue naturalmente dalla natura del testo da annotare (lingua scritta) e dal livello <strong>di</strong> annotazione<br />

in questione (sintattico-funzionale): nella <strong>Treebank</strong> <strong>di</strong> SI-TAL, l’annotazione <strong>di</strong> relazioni <strong>di</strong><br />

coreferenza è circoscritta a legami interni alla singola frase; viene invece fatta astrazione da<br />

relazioni anaforiche in quanto <strong>di</strong> <strong>di</strong>retta pertinenza della semantica. Anche se relazioni <strong>di</strong><br />

coreferenza vanno al <strong>di</strong> là della sintassi <strong>di</strong> superficie, riteniamo che la loro annotazione nell’ambito<br />

della <strong>Treebank</strong> <strong>di</strong> SI-TAL sia importante in quanto la presenza <strong>di</strong> questo tipo <strong>di</strong> informazione rende<br />

la risorsa usabile in modo più efficace in applicazioni quali, ad esempio, recupero ed acquisizione <strong>di</strong><br />

informazioni.<br />

In particolare, l’annotazione riguarda il legame tra:<br />

• il pronome relativo ed il suo antecedente;<br />

• tra il clitico e l’elemento <strong>di</strong>slocato in costruzioni a <strong>di</strong>slocazione con ripresa pronominale.<br />

Consideriamo ad esempio una frase come il ragazzo che Maria ha incontrato ieri è Giovanni. La<br />

frase relativa che Maria ha incontrato ieri è annotata come segue:<br />

53


Co<strong>di</strong>ce linea e Tema<br />

sogg (incontrare, Maria)<br />

ogg_d (incontrare, che)<br />

mod (incontrare, ieri)<br />

Le rimanenti relazioni <strong>di</strong> <strong>di</strong>pendenza relative alla principale sono riportate <strong>di</strong> seguito:<br />

sogg (essere, ragazzo)<br />

pred (essere, Giovanni)<br />

sogg (ragazzo, Giovanni)<br />

Un altro importante elemento <strong>di</strong> informazione linguistica è la relazione tra il pronome relativo<br />

che ed il suo antecedente ragazzo che non viene catturata dall’annotazione riportata sopra. È questa<br />

relazione che permette una interpretazione <strong>di</strong> ragazzo come l’inteso oggetto <strong>di</strong>retto <strong>di</strong> ha incontrato.<br />

Per annotare, in maniera esplicita, la relazione che sussiste tra che e ragazzo introduciamo qui <strong>di</strong><br />

seguito una relazione binaria ad hoc chiamata “legame”, il cui primo argomento è costituito<br />

dall’elemento legato (il pronome relativo nel nostro caso) ed il secondo dal nome che lega o<br />

antecedente:<br />

legame (che, ragazzo)<br />

Si noti che l’intesa relazione funzionale tra incontrare e ragazzo può <strong>di</strong> fatto essere inferita dalla<br />

relazione <strong>di</strong> legame che c’è tra che e ragazzo.<br />

Passando al caso della ripresa pronominale in costruzioni a <strong>di</strong>slocazione, si considerino i<br />

seguenti esempi il dolce Maria lo porta domani e Maria lo porta domani, il dolce la cui<br />

rappresentazione in termini funzionali è riportata <strong>di</strong> seguito:<br />

sogg (portare, Maria)<br />

ogg_d (portare, lo)<br />

mod (portare, domani)<br />

Per annotare la relazione che sussiste tra lo e dolce si ricorre alla stessa relazione <strong>di</strong> legame, il<br />

cui primo argomento è costituito dall’elemento legato (il pronome clitico nel nostro caso) ed il<br />

secondo dall’elemento <strong>di</strong>slocato:<br />

legame (lo, dolce)<br />

Anche in questo caso l’intesa relazione funzionale tra portare e dolce può <strong>di</strong> fatto essere inferita<br />

dalla relazione <strong>di</strong> legame che c’è tra lo e dolce.<br />

5.2 Criteri <strong>di</strong> annotazione per il livello funzionale<br />

Dopo aver illustrato a gran<strong>di</strong> linee lo schema <strong>di</strong> annotazione per il livello funzionale, segue una<br />

specifica dei criteri <strong>di</strong> applicazione <strong>di</strong> questo schema al testo, ed in particolare a costruzioni<br />

sintattiche che possono porre particolari problemi <strong>di</strong> annotazione. Questa sezione si propone dunque<br />

come guida all’applicazione dello schema proposto, fornendo criteri <strong>di</strong> identificazione delle<br />

relazioni illustrate sopra e illustrando la rappresentazione <strong>di</strong> fenomeni sintattici lessicalmente<br />

governati (ad esempio schemi <strong>di</strong> sottocategorizzazione associati a classi <strong>di</strong> nomi, verbi e aggettivi)<br />

così come <strong>di</strong> costruzioni complesse che rispondono a principi generali della grammatica<br />

dell’italiano (ad esempio, costruzioni con frasi relative ed interrogative, fenomeni <strong>di</strong> ellissi,<br />

relazioni <strong>di</strong> coreferenza, etc.). Le frasi <strong>di</strong> esempio riportate sotto sono state estratte, ove possibile,<br />

dal corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />

Procederemo con una lista <strong>di</strong> annotazioni <strong>di</strong> riferimento, articolata come segue:<br />

54


Co<strong>di</strong>ce linea e Tema<br />

• criteri per la <strong>di</strong>stinzione tra argomenti e mo<strong>di</strong>ficatori (sezione 5.2.1);<br />

• costruzioni <strong>di</strong> base (sezione 5.2.2);<br />

• costruzioni coor<strong>di</strong>nate (sezione 5.2.3);<br />

• costruzioni ellittiche (sezione 5.2.4);<br />

• annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza (sezione 5.2.5);<br />

• annotazione <strong>di</strong> costruzioni pre<strong>di</strong>cative (sezione 5.2.6);<br />

• annotazione <strong>di</strong> costruzioni causative (sezione 5.2.7);<br />

• annotazione <strong>di</strong> costruzioni partitive (sezione 5.2.8);<br />

• annotazione <strong>di</strong> costruzioni comparative (sezione 5.2.9);<br />

• miscellanea <strong>di</strong> costruzioni tipiche dei testi reali (date, numeri, nomi propri, etc.) (sezione<br />

5.2.10).<br />

5.2.1 Distinzione tra argomenti e mo<strong>di</strong>ficatori<br />

La <strong>di</strong>stinzione tra argomenti e mo<strong>di</strong>ficatori è gestibile senza particolari <strong>di</strong>fficoltà nell’ambito <strong>di</strong><br />

analizzatori sintattici sulla base <strong>di</strong> un lessico <strong>di</strong> riferimento contenente informazione sulla<br />

sottocategorizzazione dei pre<strong>di</strong>cati. Ma l’annotazione <strong>di</strong> una <strong>Treebank</strong> non prevede necessariamente<br />

il ricorso ad un lessico <strong>di</strong> riferimento. Dietro a questa scelta stanno motivi <strong>di</strong> varia natura:<br />

1) le risorse lessicali esistenti sono insufficienti per applicazioni su scala reale per copertura del<br />

lessico sia a livello <strong>di</strong> lemmi che <strong>di</strong> costruzioni sintattiche associate ad essi;<br />

2) una <strong>Treebank</strong> è tipicamente usata anche per acquisire informazione <strong>di</strong> questo tipo, per cui una<br />

proiezione preventiva delle interpretazioni possibili può interferire con i risultati attesi.<br />

La <strong>di</strong>stinzione va dunque demandata all’annotatore del testo, sulla base della sua intuizione. La<br />

<strong>di</strong>fficoltà <strong>di</strong> questo compito è ripetutamente segnalata nella letteratura sulle <strong>Treebank</strong>: Marcus et al.<br />

(1994) sottolineano la <strong>di</strong>fficoltà <strong>di</strong> questa <strong>di</strong>stinzione quando applicata ad un’ampia varietà <strong>di</strong> verbi<br />

e riferita all’uso reale della lingua.<br />

Per guidare l’annotatore nell’interpretazione dei casi incerti, forniamo qui <strong>di</strong> seguito una batteria<br />

<strong>di</strong> criteri ed euristiche basate su test <strong>di</strong> natura sintattica tratti dalla letteratura corrente in proposito<br />

(Somers 1984, Meyers et al. 1994):<br />

• omissibilità/obbligatorietà - se un costituente nel contesto locale <strong>di</strong> un verbo non può<br />

essere omesso, allora si tratta <strong>di</strong> un argomento: ad esempio, in mettere il libro sulla tavola<br />

sia libro che tavola non possono essere omessi (*mettere il libro, *mettere sulla tavola). Si<br />

tratta <strong>di</strong> un criterio affidabile, ma non può essere usato per identificare i mo<strong>di</strong>ficatori dato<br />

che argomenti <strong>di</strong> molti verbi possono essere tranquillamente omessi (si veda ad esempio il<br />

caso <strong>di</strong> mangiare);<br />

55


Co<strong>di</strong>ce linea e Tema<br />

• “retroformazioni” - un costituente nel contesto locale <strong>di</strong> un verbo è un mo<strong>di</strong>ficatore se può<br />

essere riformulato come una frase subor<strong>di</strong>nata: è morto a Dresda, è morto quando era a<br />

Dresda; vive a Parigi, *vive quando è a Parigi. Si tratta <strong>di</strong> un criterio <strong>di</strong> <strong>di</strong>fficile<br />

applicazione dato che molti mo<strong>di</strong>ficatori non possono essere facilmente riformulati in<br />

termini <strong>di</strong> una frase subor<strong>di</strong>nata (i bambini giocano oggi, *i bambini giocano quando è<br />

oggi);<br />

• partecipazione ad alternanze <strong>di</strong> <strong>di</strong>atesi - nel caso <strong>di</strong> verbi con alternanza <strong>di</strong> <strong>di</strong>atesi, i<br />

costituenti che alternano tra <strong>di</strong>verse realizzazioni superficiali nelle <strong>di</strong>verse sono da<br />

considerarsi argomenti. Ad esempio, considerate le frasi ha spalmato il burro sul pane e ha<br />

spalmato il pane con il burro sia burro che pane appaiono essere argomenti <strong>di</strong> spalmare. Si<br />

tratta <strong>di</strong> un criterio utile e sufficientemente affidabile a con<strong>di</strong>zione che l’alternanza sia stata<br />

identificata in modo appropriato;<br />

• “fare lo stesso” test - quando fare lo stesso è usato nella coor<strong>di</strong>nazione <strong>di</strong> frasi come una<br />

proforma del gruppo verbale ripetuto, solo i mo<strong>di</strong>ficatori possono essere esclusi dalla<br />

sostituzione. Ad esempio, si confrontino: Maria ha incontrato Giovanni a Parigi, e Pietro<br />

ha fatto lo stesso a Milano e *Maria ha messo il libro sulla tavola e Giovanni ha fatto lo<br />

stesso sulla se<strong>di</strong>a. Il test è affidabile ma solo per una classe <strong>di</strong> pre<strong>di</strong>cati dalla quale<br />

rimangono fuori gli stativi e in ogni caso tutti i pre<strong>di</strong>cati con i quali la sostituzione con la<br />

proforma farlo è inaccettabile (*Maria è intelligente e Carlo fa lo stesso, ??Maria conosce<br />

la risposta e Carlo fa lo stesso);<br />

• anteposizione - i costituenti con funzione <strong>di</strong> mo<strong>di</strong>ficatori possono essere anteposti<br />

liberamente, mentre gli argomenti possono essere anteposti solo dando luogo a costruzioni<br />

fortemente marcate. Ad esempio, la scorsa settimana ho comprato un libro vs sul pavimento<br />

ho messo il libro. Si tratta <strong>di</strong> criterio affidabile, senza particolari controin<strong>di</strong>cazioni.<br />

Non è detto che i vari criteri convergano sulla stessa interpretazione. Quando la stessa<br />

interpretazione è supportata da un numero significativo <strong>di</strong> test tra quelli elencati sopra, si<br />

raccomanda all’annotatore <strong>di</strong> adottare l’interpretazione per la quale ha raccolto maggiore evidenza.<br />

Per i casi che rimangono incerti si raccomanda si ricorrere alla sottospecificazione dell’analisi,<br />

che nel caso specifico corrisponde alla relazione comp: si può sempre ritornare a rivedere analisi<br />

sottospecificate mentre un’analisi completamente specificata ma erroneamente attribuita <strong>di</strong>venta più<br />

<strong>di</strong>fficilmente recuperabile e dunque correggibile.<br />

5.2.2 Costruzioni <strong>di</strong> base<br />

5.2.2.1 Costruzioni con verbo intransitivo<br />

Gli uomini parlano e sognano sempre <strong>di</strong> un miglioramento<br />

sogg (parlare, uomo)<br />

sogg (sognare, uomo)<br />

obl (parlare, miglioramento.)<br />

obl (sognare, miglioramento.)<br />

mod (parlare, sempre)<br />

mod (sognare, sempre)<br />

cong (parlare, sognare)<br />

56


Co<strong>di</strong>ce linea e Tema<br />

5.2.2.2 Costruzioni con verbo intransitivo inaccusativo<br />

Gli studenti erano giunti nella zona alla spicciolata<br />

sogg (giungere, studente)<br />

arg (giungere, zona.)<br />

mod (giungere, alla_spicciolata)<br />

Slitta la riunione, prevista per oggi, della cosiddetta commissione Sangalli<br />

sogg (slittare, riunione)<br />

mod (riunione, previsto)<br />

comp (previsto, oggi.)<br />

comp (riunione, commissione.)<br />

mod (commissione, cosiddetto)<br />

mod (commissione, Sangalli)<br />

5.2.2.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto<br />

Carnevale ha sbagliato un gol quasi fatto<br />

sogg (sbagliare, Carnevale)<br />

ogg_d (sbagliare, gol)<br />

mod (gol, fatto)<br />

mod (fatto, quasi)<br />

5.2.2.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto<br />

Gullit ha <strong>di</strong>chiarato guerra alla stampa sportiva<br />

sogg (<strong>di</strong>chiarare, Gullit)<br />

ogg_d (<strong>di</strong>chiarare, guerra)<br />

ogg_i (<strong>di</strong>chiarare, stampa.)<br />

mod (stampa, sportivo)<br />

5.2.2.5 Costruzioni con verbo transitivo con complemento obliquo<br />

La Bimex importa prodotti dalla Union Carbide<br />

sogg (importare, Bimex)<br />

ogg_d (importare, prodotto)<br />

obl (importare, Union _Carbide.)<br />

5.2.2.6 Costruzioni passive<br />

I due malavitosi sono stati spesso segnalati in <strong>di</strong>verse occasioni<br />

sogg (segnalare., malavitoso.)<br />

mod (segnalare, spesso)<br />

57


Co<strong>di</strong>ce linea e Tema<br />

mod (segnalare, occasione.)<br />

mod (occasione, <strong>di</strong>verso)<br />

L’accordo è stato firmato ieri al Pentagono dal ministro americano<br />

sogg (firmare., accordo)<br />

mod (firmare, ieri)<br />

mod (firmare, Pentagono.)<br />

comp (firmare, ministro.< introdep =“da”, ruolo=agente>)<br />

mod (ministro, americano)<br />

Anche se l’annotazione a livello <strong>di</strong> relazioni riguarda la sintassi <strong>di</strong> superficie, la rappresentazione<br />

riportata sopra contiene anche in<strong>di</strong>cazione esplicita dell’agente (che viene fornita quando<br />

esplicitamente in<strong>di</strong>cato nella realizzazione superficiale della frase): questa informazione è<br />

convogliata dal tratto ruolo associato all’elemento <strong>di</strong>pendente della relazione comp, il cui valore<br />

specifica che si tratta dell’agente del firmare.<br />

5.2.2.7 Costruzioni con completive sottocategorizzate<br />

Un doppio cordone <strong>di</strong> poliziotti continuava a circondare tutta la piazza<br />

sogg (continuare, cordone)<br />

mod (cordone, doppio)<br />

comp (cordone, poliziotti.< introdep =“<strong>di</strong>”>)<br />

arg (continuare, circondare.< introdep =“a”, status=aperto>)<br />

sogg (circondare, cordone)<br />

ogg_d (circondare, piazza)<br />

mod (piazza, tutto)<br />

Un uomo anziano cercava <strong>di</strong> spiegare che simili azioni non giovano<br />

sogg (cercare, uomo)<br />

mod (uomo, anziano)<br />

arg (cercare, spiegare.< introdep =“<strong>di</strong>”, status=aperto>)<br />

sogg (spiegare, uomo)<br />

arg (spiegare, giovare.< introdep =“che”, status=chiuso>)<br />

sogg (giovare, azione)<br />

mod (azione, simile)<br />

mod (giovare, non)<br />

Luigi ha visto Paolo uscire dal casolare<br />

sogg (vedere, Luigi)<br />

ogg_d (vedere, Paolo)<br />

arg (vedere, uscire.)<br />

sogg (uscire, Paolo)<br />

arg (uscire, casolare.)<br />

Giovanni ha visto Maria correre<br />

58


Co<strong>di</strong>ce linea e Tema<br />

sogg (vedere, Giovanni)<br />

ogg_d (vedere, Maria)<br />

arg (vedere, correre.)<br />

sogg (correre, Maria)<br />

Che i governi europei debbano silenziosamente ingoiarle non è giusto<br />

sogg (essere, ingoiare.< introdep =“che”, status=chiuso, perifra=“dovere”>)<br />

pred (essere, giusto)<br />

mod (essere, non)<br />

sogg (ingoiare, governo)<br />

mod (governo, europeo)<br />

ogg_d (ingoiare, le)<br />

mod (ingoiare, silenziosamente)<br />

sogg (ingoiare, giusto)<br />

5.2.2.8 Costruzioni con interrogative in<strong>di</strong>rette<br />

Le interrogative in<strong>di</strong>rette sono un tipo <strong>di</strong> frase argomentale che presentano un introduttore <strong>di</strong><br />

subor<strong>di</strong>nazione che non può mai essere omesso ed occupa la posizione iniziale: l'elemento<br />

introduttore è un sintagma interrogativo, comprendente un pronome, aggettivo o avverbio della<br />

serie interrogativa (chi, che cosa, come, quando, dove, perché, quale, quanto, etc.). La struttura a<br />

<strong>di</strong>pendenze associata a queste frasi nello schema <strong>di</strong> annotazione funzionale <strong>di</strong> SI-TAL segue le<br />

in<strong>di</strong>cazioni della Word Grammar <strong>di</strong> Hudson (1984:84-85) ed è esemplificata negli esempi che<br />

seguono:<br />

Io non so chi ha parlato<br />

sogg (sapere, io)<br />

arg (sapere, chi)<br />

mod (sapere, non)<br />

sogg (parlare, chi)<br />

So quando è partito<br />

sogg (sapere, )<br />

arg (sapere, quando)<br />

sogg (partire, )<br />

mod (partire, quando)<br />

Come si può notare, l'elemento interrogativo è un <strong>di</strong>pendente con<strong>di</strong>viso da due teste, ovvero dal<br />

pre<strong>di</strong>cato reggente (il verbo nei casi sopra) così come dalla testa verbale della frase interrogativa.<br />

Mentre la seconda relazione <strong>di</strong> <strong>di</strong>pendenza appare scontata, la relazione tra il pre<strong>di</strong>cato reggente e<br />

l'elemento interrogativo non lo è. A favore <strong>di</strong> questo tipo <strong>di</strong> analisi c'è il fatto che l'elemento<br />

interrogativo può occorrere nella frase senza il resto della frase interrogativa: es. non so chi, non so<br />

quando. In questi casi la parola interrogativa non può che <strong>di</strong>pendere da sapere. Un altro argomento<br />

a favore <strong>di</strong> questo tipo <strong>di</strong> analisi sta nel fatto che il pre<strong>di</strong>cato reggente sottocategorizza per una frase<br />

interrogativa all'interno della quale la marca <strong>di</strong> interrogatività è associata all'elemento interrogativo<br />

che la introduce.<br />

59


Co<strong>di</strong>ce linea e Tema<br />

Nel caso in cui l'elemento interrogativo sia costituito da un aggettivo, l'annotazione sarà come<br />

segue:<br />

Non so quale treno abbia preso<br />

sogg (sapere, )<br />

mod (sapere, non)<br />

arg (sapere, treno)<br />

mod (treno, quale)<br />

sogg (prendere, )<br />

ogg_d (prendere, treno)<br />

5.2.2.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)<br />

Dobbiamo vincere domenica per interrompere questo brutto momento<br />

sogg (vincere, . )<br />

mod (vincere, domenica)<br />

mod (vincere, interrompere.)<br />

ogg_d (interrompere, momento)<br />

mod (momento, questo)<br />

mod (momento, brutto)<br />

Il Ministero della Difesa esce allo scoperto per smentire infondate speculazioni<br />

sogg (uscire, Ministero)<br />

mod (ministero, Difesa.)<br />

mod (uscire, allo_scoperto)<br />

mod (uscire, smentire.)<br />

sogg (smentire, Ministero)<br />

ogg_d (smentire, speculazione)<br />

mod (speculazione, infondato)<br />

Gli evasori hanno aggre<strong>di</strong>to gli agenti <strong>di</strong> custo<strong>di</strong>a sparando all’impazzata<br />

sogg (aggre<strong>di</strong>re, evasore)<br />

ogg_d (aggre<strong>di</strong>re, agente)<br />

mod (agente, custo<strong>di</strong>a.)<br />

mod (aggre<strong>di</strong>re, sparare.)<br />

mod (sparare, all’_impazzata)<br />

5.2.2.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto<br />

Maria è <strong>di</strong>ventata una bella ragazza<br />

sogg (<strong>di</strong>ventare, Maria)<br />

pred (<strong>di</strong>ventare, ragazza)<br />

mod (ragazza, bello)<br />

sogg (ragazza, Maria)<br />

60


Co<strong>di</strong>ce linea e Tema<br />

Maria sembra infelice<br />

sogg (sembrare, Maria)<br />

pred (sembrare, infelice)<br />

sogg (infelice, Maria)<br />

Giovanni considera Maria una bella ragazza<br />

sogg (considerare, Giovanni)<br />

ogg_d (considerare, Maria)<br />

pred (considerare, ragazza)<br />

mod (ragazza, bello)<br />

sogg (ragazza, Maria)<br />

Lui considera il loro strumento <strong>di</strong> ricerca un modo <strong>di</strong> fare sol<strong>di</strong> rapidamente<br />

sogg (considerare, lui)<br />

ogg_d (considerare, strumento)<br />

mod (strumento, loro)<br />

mod (strumento, ricerca.)<br />

pred (considerare, modo)<br />

arg (modo, fare.)<br />

ogg_d (fare, soldo)<br />

mod (fare, rapidamente)<br />

sogg (modo, strumento)<br />

Brancati considerava i siciliani il popolo più intelligente d’Europa<br />

sogg (considerare, Brancati)<br />

ogg_d (considerare, siciliano)<br />

pred (considerare, popolo)<br />

mod (popolo, intelligente)<br />

mod (intelligente, più)<br />

comp (intelligente, Europa.)<br />

sogg (popolo, siciliano)<br />

Come si può notare dall’analisi e dal confronto delle frasi annotate riportate sopra, a livello della<br />

relazione assegnata – pred - non si fa <strong>di</strong>stinzione tra complemento pre<strong>di</strong>cativo del soggetto e<br />

dell’oggetto. Questa informazione è comunque implicita nell’annotazione globale della frase.<br />

Quando dalla testa verbale del complemento pre<strong>di</strong>cativo <strong>di</strong>penda anche un oggetto <strong>di</strong>retto (ogg_d),<br />

la relazione pred è da interpretarsi come pre<strong>di</strong>cativa dell’oggetto; in caso contrario, il complemento<br />

pre<strong>di</strong>cativo si riferisce al soggetto; questa informazione è co<strong>di</strong>ficato me<strong>di</strong>ante la relazione sogg che<br />

è usata per contrassegnare il soggetto del complemento pre<strong>di</strong>cativo (del soggetto o dell’oggetto).<br />

Da un’analisi attenta dell’annotazione adottata dovrebbe risultare evidente la sua compatibilità<br />

sia con schemi che marcano la <strong>di</strong>pendenza tra il complemento pre<strong>di</strong>cativo e la testa verbale, sia con<br />

interpretazioni che guardano al complemento pre<strong>di</strong>cativo in termini <strong>di</strong> frase ridotta governata dalla<br />

testa verbale.<br />

61


Co<strong>di</strong>ce linea e Tema<br />

5.2.2.11 Complementazione <strong>di</strong> nomi e aggettivi<br />

Eriksson non ha idea della piega inferta alla nostra penisola<br />

sogg (avere, Eriksson)<br />

ogg_d (avere, idea)<br />

mod (avere, non)<br />

comp (idea, piega.)<br />

mod (piega, inferto)<br />

arg (inferto, penisola.)<br />

mod (penisola, nostro)<br />

Viola deve fare esperienza sui pedatori a <strong>di</strong>sposizione e sui tecnici<br />

sogg (fare., Viola)<br />

ogg_d (fare, esperienza)<br />

arg (esperienza, pedatore.)<br />

mod (pedatore, a_<strong>di</strong>sposizione )<br />

arg (esperienza, tecnico.)<br />

cong (pedatore, tecnico)<br />

Il Parlamento incomincerà un <strong>di</strong>battito sulla partecipazione al programma<br />

sogg (incominciare, Parlamento)<br />

ogg_d (incominciare, <strong>di</strong>battito)<br />

comp (<strong>di</strong>battito, partecipazione.)<br />

arg (partecipazione, programma.)<br />

Fonti dell’amministrazione hanno auspicato un’intesa con il governo<br />

sogg (auspicare, fonte)<br />

mod (fonte, amministrazione.)<br />

ogg_d (auspicare, intesa)<br />

arg (intesa, governo.)<br />

La società sarà integrata con il settore cucine della Candy<br />

sogg (integrare., società)<br />

obl (integrare, settore.)<br />

mod (settore, cucina)<br />

comp (settore, Candy.)<br />

La credenza che la Terra sia rotonda è ra<strong>di</strong>cata<br />

sogg (essere 2 , credenza)<br />

pred (essere 2 , ra<strong>di</strong>cato)<br />

sogg (ra<strong>di</strong>cato, credenza)<br />

arg (credenza, essere 1 .)<br />

sogg (essere 1 , Terra)<br />

pred (essere 1 , rotondo)<br />

sogg (rotondo, Terra)<br />

62


Co<strong>di</strong>ce linea e Tema<br />

5.2.2.12 Negazione<br />

Io non mangio panini con la mortadella<br />

sogg (mangiare, io)<br />

mod (mangiare, non)<br />

ogg_d (mangiare, panino)<br />

mod (panino, mortadella.)<br />

I bambini non devono guardare film violenti<br />

sogg (guardare., bambino)<br />

mod (guardare, non)<br />

ogg_d (guardare, film)<br />

mod (film, violento)<br />

5.2.2.13 Costruzioni esistenziali<br />

C’è una vespa nella mia camera<br />

mod (essere, ci)<br />

sogg (essere, vespa)<br />

pred (essere, camera.)<br />

mod (camera, mia)<br />

Paolo ha visto che c’era Maria con Luigi<br />

sogg (vedere, Paolo)<br />

arg (vedere, essere.)<br />

mod (essere, ci)<br />

sogg (essere, Maria)<br />

mod (essere, Luigi.)<br />

5.2.3 Costruzioni coor<strong>di</strong>nate<br />

• Coor<strong>di</strong>nazione <strong>di</strong> soggetti<br />

I superstiti e i parenti delle vittime hanno espresso malumore per la scarcerazione<br />

sogg (esprimere, superstite)<br />

sogg (esprimere, parente)<br />

cong (superstite, parente)<br />

comp (parente, vittima.)<br />

ogg_d (esprimere, malumore)<br />

mod (malumore, scarcerazione.)<br />

• Frasi composte con proposizioni coor<strong>di</strong>nate<br />

La donna sbrigava le faccende <strong>di</strong> casa e doveva avere familiarità con i cani<br />

63


Co<strong>di</strong>ce linea e Tema<br />

sogg (sbrigare, donna)<br />

ogg_d (sbrigare, faccenda)<br />

mod (faccenda, casa.)<br />

sogg (avere., donna)<br />

ogg_d (avere., familiarità)<br />

comp (familiarità, cane.)<br />

cong (sbrigare, avere.)<br />

• Coor<strong>di</strong>nazione aggettivale<br />

Il fatturato complessivo delle società controllate e collegate è elevato<br />

sogg (essere, fatturato)<br />

mod (fatturato, complessivo)<br />

mod (fatturato, società.)<br />

mod (società, controllato)<br />

mod (società, collegato)<br />

cong (controllato, collegato)<br />

pred (essere, elevato)<br />

sogg (elevato, fatturato)<br />

• Coor<strong>di</strong>nazione <strong>di</strong> complementi<br />

Tale incremento è dovuto all’aumento <strong>di</strong> capitale, all’utile d’esercizio ed ai contributi per<br />

l’e<strong>di</strong>toria<br />

sogg (essere, incremento)<br />

mod (incremento, tale)<br />

pred (essere, dovuto)<br />

sogg (dovuto, incremento)<br />

arg (dovuto, aumento.)<br />

comp (aumento, capitale.)<br />

arg (dovuto, utile.)<br />

mod (utile, esercizio.)<br />

arg (dovuto, contributo.)<br />

comp (contributo, e<strong>di</strong>toria.)<br />

cong (aumento, utile)<br />

cong (utile, contributo)<br />

Il mun<strong>di</strong>al <strong>di</strong> calcio termina con la finalissima <strong>di</strong> domenica sera e con i risultati conosciuti<br />

sogg (terminare, mun<strong>di</strong>al)<br />

mod (mun<strong>di</strong>al, calcio.)<br />

comp (terminare, finalissima.)<br />

mod (finalissima, domenica.)<br />

mod (domenica, sera)<br />

comp (terminare, risultato.)<br />

mod (risultato, conosciuto)<br />

cong (finalissima, risultato)<br />

• Con<strong>di</strong>visione <strong>di</strong> complementi in costruzioni coor<strong>di</strong>nate<br />

64


Co<strong>di</strong>ce linea e Tema<br />

L’assemblea <strong>di</strong> ieri ha confermato Eugenio Scalfari ed ha deliberato <strong>di</strong> aumentare il<br />

numero dei consiglieri<br />

sogg (confermare, assemblea)<br />

mod (assemblea, ieri.)<br />

ogg_d (confermare, Eugenio_Scalfari)<br />

sogg (deliberare, assemblea)<br />

arg (deliberare, aumentare.)<br />

sogg (aumentare, assemblea)<br />

ogg_d (aumentare, numero)<br />

arg (numero, consigliere.)<br />

cong (confermare, deliberare)<br />

Questo esempio illustra la strategia che è stata adottata nell’ambito della <strong>Treebank</strong> <strong>di</strong> SI-TAL per<br />

l’annotazione <strong>di</strong> argomenti o mo<strong>di</strong>ficatori con<strong>di</strong>visi da più <strong>di</strong> una testa in strutture coor<strong>di</strong>nate. Si<br />

può notare che l’annotazione <strong>di</strong> complementi con<strong>di</strong>visi non costituisce particolare problema<br />

nell’ambito <strong>di</strong> uno schema <strong>di</strong> rappresentazione funzionale, al contrario dei problemi invece<br />

tipicamente posti da complementi con<strong>di</strong>visi a livello <strong>di</strong> rappresentazione a costituenti.<br />

• Altre costruzioni coor<strong>di</strong>nate<br />

Costruzioni coor<strong>di</strong>nate con ma vengono annotate con la relazione <strong>di</strong> congiunzione (“cong”): in<br />

questo caso il secondo partecipante deve avere “ma”come valore <strong>di</strong> “introsim”.<br />

… il bilancio ha ottenuto risultati <strong>di</strong> rilievo, in campo economico e sindacale, ma anche sul<br />

fronte dell’autonomia…<br />

cong (campo, fronte.)<br />

5.2.4 Costruzioni ellittiche<br />

Questa sezione illustra la strategia <strong>di</strong> annotazione <strong>di</strong> costruzioni ellittiche messa a punto per la<br />

<strong>Treebank</strong> <strong>di</strong> SI-TAL. Negli esempi riportati finora, le relazioni funzionali riguardano istanze <strong>di</strong><br />

parole in un testo. Le costruzioni ellittiche, d’altra parte, sembra che richiedano che le relazioni<br />

funzionali debbano essere stabilite tra un’istanza <strong>di</strong> una parola ed un tipo astratto, definito me<strong>di</strong>ante<br />

tratti o me<strong>di</strong>ante un tipo lessicale.<br />

5.2.4.1 Ellissi del soggetto<br />

Ho visto Maria uscire <strong>di</strong> casa<br />

sogg (vedere, . )<br />

ogg_d (vedere, Maria)<br />

arg (vedere, uscire.)<br />

sogg (uscire, Maria)<br />

arg (uscire, casa.< introdep =“<strong>di</strong>”>)<br />

Abbiamo visto l’opera nella piazza del paese<br />

sogg (vedere, . )<br />

ogg_d (vedere, opera)<br />

65


Co<strong>di</strong>ce linea e Tema<br />

mod (vedere, piazza.< introdep =“in”>)<br />

mod (piazza, paese.< introdep =“<strong>di</strong>”><br />

5.2.4.2 Ellissi del verbo<br />

Si consideri l’esempio che segue:<br />

Gli esempi sono scritti in corsivo, le glosse in stampatello<br />

sogg (scrivere., esempio)<br />

mod (scrivere, corsivo.< introdep =“in”>)<br />

sogg (SCRIVERE., glossa)<br />

mod (SCRIVERE, stampatello.< introdep =“in”>)<br />

dove glossa e stampatello sono rispettivamente soggetto e mo<strong>di</strong>ficatore <strong>di</strong> un tipo astratto che<br />

non ha alcuna istanziazione nel testo, corrispondente al lemma scritto in maiuscolo, ovvero<br />

SCRIVERE.<br />

Seguono altri esempi <strong>di</strong> costruzioni ellittiche e relativa annotazione secondo lo schema proposto.<br />

La ballata <strong>di</strong> Mackie Messer è cantata da Sting, Jenny dei pirati dalla Nannini<br />

sogg (cantare., ballata)<br />

mod (ballata, Mackie_Messer.< introdep =“<strong>di</strong>”>)<br />

comp (cantare, Sting.)<br />

sogg (CANTARE., Jenny)<br />

mod (Jenny, pirata.)<br />

comp (CANTARE, Nannini.)<br />

Molti <strong>di</strong>ranno che è il trionfo della marcatura a uomo, io no<br />

sogg (<strong>di</strong>re, molto)<br />

arg (<strong>di</strong>re, essere.)<br />

pred (essere, trionfo)<br />

comp (trionfo, marcatura.)<br />

mod (marcatura, a_uomo)<br />

sogg (DIRE, io)<br />

comp (DIRE, no)<br />

Gli esempi riportati fino a questo punto presentano casi <strong>di</strong> ellissi in strutture coor<strong>di</strong>nate, dove nel<br />

secondo congiunto si osserva l’omissione del verbo. Nell’annotazione proposta le relazioni <strong>di</strong><br />

<strong>di</strong>pendenza del secondo congiunto fanno riferimento ad una testa verbale astratta, ricostruita a<br />

partire dall’analisi del primo congiunto. Ma non è sempre il caso che il materiale ellittico sia<br />

ricostruibile dall’analisi della frase. Si consideri ad esempio il caso seguente, che presenta l’ellissi<br />

della copula:<br />

Queste le principali raccomandazioni rivolte all’Italia dalla commissione europea<br />

sogg ( , questo)<br />

pred ( , raccomandazione)<br />

mod (raccomandazione, principale)<br />

66


Co<strong>di</strong>ce linea e Tema<br />

mod (raccomandazione, rivolgere.)<br />

ogg_i (rivolgere, Italia.< introdep =“a”>)<br />

comp (rivolgere, commissione.< introdep =“da”,ruolo=agente>)<br />

mod (commissione, europeo)<br />

L’annotazione riportata sopra contiene due relazioni <strong>di</strong> <strong>di</strong>pendenza la cui testa non è specificata.<br />

5.2.4.3 Ellissi in costruzioni verbali perifrastiche<br />

L'ellissi dell'ausiliare in tempi composti oppure del verbo modale, aspettuale o causativo in<br />

costruzioni perifrastiche <strong>di</strong> varia natura (si veda la sezione 5.1.1.1.2.2) viene gestita al livello della<br />

descrizione in tratti dei partecipanti alla relazione funzionale.<br />

Si prenda ad esempio un caso <strong>di</strong> ellissi del verbo modale:<br />

Si possono scegliere i fon<strong>di</strong> e realizzare bordure<br />

L’annotazione prevede la co<strong>di</strong>fica del verbo modale sia in relazione a scegliere sia a realizzare. I<br />

due casi sono <strong>di</strong>fferenziati come segue:<br />

ogg_d (scegliere., fondo)<br />

ogg_d (realizzare., bordura)<br />

ovvero nel caso <strong>di</strong> ellissi del modale, il valore associato al tratto perifra è marcato da un<br />

asterisco.<br />

Analoga strategia <strong>di</strong> annotazione viene adottata nei casi <strong>di</strong> ellissi dell’ausiliare e negli altri tipi <strong>di</strong><br />

costruzioni perifrastiche.<br />

5.2.5 Annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza<br />

L’annotazione delle relazioni <strong>di</strong> coreferenza è esemplificata me<strong>di</strong>ante il caso delle frasi relative:<br />

Prost lascia la McLaren per una Ferrari che non cammina<br />

sogg (lasciare, Prost)<br />

ogg_d (lasciare, McLaren)<br />

obl (lasciare, Ferrari.< introdep =“per”>)<br />

sogg (camminare, che)<br />

mod (camminare, non)<br />

legame (che, Ferrari)<br />

Il presidente ha in<strong>di</strong>cato le imprese italiane che producono e importano energia<br />

sogg (in<strong>di</strong>care, presidente)<br />

ogg_d (in<strong>di</strong>care, impresa)<br />

mod (impresa, italiano)<br />

sogg (produrre, che)<br />

sogg (importare, che)<br />

ogg_d (produrre, energia)<br />

ogg_d (importare, energia)<br />

67


Co<strong>di</strong>ce linea e Tema<br />

cong (produrre, importare)<br />

legame (che, impresa)<br />

Il paese dove io sono nato è lontano<br />

sogg (essere, paese)<br />

pred (essere, lontano)<br />

sogg (lontano, paese)<br />

sogg (nascere, io)<br />

comp (nascere, dove)<br />

legame (dove, paese)<br />

5.2.6 Casi particolari <strong>di</strong> costruzioni pre<strong>di</strong>cative<br />

• Costruzioni pre<strong>di</strong>cative con fare<br />

Seguendo Renzi (1991, pagg. 195-6) e Schwarze (1995, pag. 122), costruzioni del tipo fare da<br />

autista a qualcuno e fare come uno sconosciuto con qualcuno sono annotate come segue: viene<br />

stabilita una relazione <strong>di</strong> pre<strong>di</strong>cazione (pred) tra il verbo fare e il sostantivo che svolge il ruolo <strong>di</strong><br />

pre<strong>di</strong>cato (fare e autista, fare e sconosciuto). Nella descrizione del pre<strong>di</strong>cato, viene specificato<br />

l'introduttore (dando luogo rispettivamente a introdep=“da” e introdep=“come”). Lo stesso<br />

trattamento viene riservato a costruzioni analoghe con i verbi fungere e servire.<br />

• Costruzioni pre<strong>di</strong>cative con avere<br />

Un complemento pre<strong>di</strong>cativo dell'oggetto può accompagnare molti verbi transitivi nel loro<br />

significato basico. Questo tipo <strong>di</strong> complemento pre<strong>di</strong>cativo è particolarmente frequente con avere<br />

(Renzi, vol. 2, p. 201). Si consideri l'esempio che segue:<br />

Essi avevano come protagonista il citta<strong>di</strong>no<br />

ogg_d (avere, citta<strong>di</strong>no)<br />

pred (avere, protagonista.)<br />

• Costruzioni pre<strong>di</strong>cative con essere<br />

Costruzioni del tipo “essere in/a + sostantivo” (Luigi è a/in casa) “essere da + infinito” (le mele<br />

sono da mangiare) sono annotate come segue:<br />

Luigi è in casa<br />

pred (essere, casa.)<br />

5.2.7 Costruzioni causative<br />

Nello schema <strong>di</strong> annotazione funzionale <strong>di</strong> SI-TAL le costruzioni causative sono annotate come<br />

segue:<br />

Io ho fatto applicare la legge<br />

sogg (fare, io)<br />

arg(fare, applicare)<br />

68


Co<strong>di</strong>ce linea e Tema<br />

ogg_d(applicare, legge)<br />

Ho fatto fare qualche ricerca alla mia segretaria<br />

sogg (fare1, )<br />

arg(fare1, fare2)<br />

ogg_i(fare1, segretaria.)<br />

sogg(fare2, segretaria)<br />

ogg_d(fare2, ricerca)<br />

mod(segretaria, mio)<br />

Ho fatto partire la macchina<br />

sogg (fare, )<br />

ogg(fare, macchina)<br />

arg(fare, partire)<br />

sogg(partire, macchina)<br />

5.2.8 Costruzioni partitive<br />

In costruzioni partitive del tipo dello stile impero sopravvive una certa indulgenza, l’espressione<br />

partitiva viene annotata come un mo<strong>di</strong>ficatore del soggetto. Nella frase <strong>di</strong> esempio, impero viene<br />

annotato come mo<strong>di</strong>ficatore <strong>di</strong> indulgenza come illustrato <strong>di</strong> seguito:<br />

Dello stile impero sopravvive una certa indulgenza<br />

mod (indulgenza, stile.)<br />

5.2.9 Annotazione delle costruzioni con superlativo e con strutture comparative<br />

5.2.9.1 Superlativi<br />

• Superlativo assoluto<br />

Il grado superlativo assoluto <strong>di</strong> un aggettivo può essere espresso in forma sintetica (e cioè con<br />

l’aiuto del suffisso -issimo, o <strong>di</strong> prefissi del tipo stra-, -arci ecc.) o in forma analitica, con l’aiuto <strong>di</strong><br />

un mo<strong>di</strong>ficatore avverbiale (molto, assai) solitamente preposto all’aggettivo. Quando espresso in<br />

forma sintetica, il grado è annotato con l’attribuzione del valore “superlativo” al tratto ruolo<br />

relativo all’aggettivo. Quando espresso in forma analitica, l’annotazione riguarda sia il livello <strong>di</strong><br />

relazioni <strong>di</strong> <strong>di</strong>pendenza sia il livello dei tratti che descrivono l'aggettivo, ovvero:<br />

• nella descrizione in tratti dell’aggettivo<br />

• l'attribuzione del valore <strong>di</strong> “superlativo” al tratto ruolo;<br />

• al livello relazionale, me<strong>di</strong>ante la definizione <strong>di</strong> una relazione <strong>di</strong> mo<strong>di</strong>ficazione tra la testa<br />

aggettivale e il mo<strong>di</strong>ficatore avverbiale.<br />

Si veda l'esempio che segue:<br />

69


Co<strong>di</strong>ce linea e Tema<br />

Paolo è molto bello<br />

sogg (essere, Paolo)<br />

pred (essere, bello.)<br />

mod (bello, molto)<br />

sogg (bello, Paolo)<br />

• Superlativo relativo<br />

Le costruzioni con un aggettivo <strong>di</strong> grado superlativo relativo prevedono: i) l’obbligo del tratto <strong>di</strong><br />

definitezza o sull’aggettivo o sul sostantivo che l’aggettivo mo<strong>di</strong>fica; ii) l’espressione del grado o<br />

sinteticamente (per alcune forme aggettivali lessicalmente “marcate” come migliore, maggiore ecc.)<br />

o analiticamente attraverso l’avverbio più in posizione obbligatoriamente pre-aggettivale; iii) una<br />

restrizione opzionale dell’ambito relativamente al quale viene espresso il grado superlativo<br />

dell’aggettivo in questione. Nel caso più comune in cui il superlativo relativo venga espresso in<br />

forma analitica, l’annotazione riguarda sia il livello <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza sia il livello dei tratti<br />

che descrivono l’aggettivo, ovvero:<br />

• nella descrizione in tratti dell'aggettivo, me<strong>di</strong>ante:<br />

• l'attribuzione del valore <strong>di</strong> “superlativo” al tratto ruolo;<br />

• l'attribuzione del valore <strong>di</strong> “+” al tratto definitezza;<br />

• al livello relazionale, me<strong>di</strong>ante la definizione <strong>di</strong> una relazione <strong>di</strong> mo<strong>di</strong>ficazione tra la testa<br />

aggettivale e il più.<br />

La relazione tra l’aggettivo e il suo ambito viene annotata in termini <strong>di</strong> comp; inoltre, al livello<br />

della descrizione del <strong>di</strong>pendente viene assegnato il valore”ambito” al tratto ruolo.<br />

Si veda l'esempio che segue:<br />

Il ragazzo più prestigioso d’America<br />

mod (ragazzo, prestigioso)<br />

mod (prestigioso, più)<br />

comp (prestigioso, America.)<br />

5.2.9.2 Costruzioni comparative<br />

Le costruzioni comparative pongono notevoli <strong>di</strong>fficoltà <strong>di</strong> annotazione derivanti dai fenomeni <strong>di</strong><br />

<strong>di</strong>scontinuità e <strong>di</strong> ellissi che le caratterizzano. Inoltre, l'estrema varietà <strong>di</strong> questo tipo <strong>di</strong> costruzioni<br />

nell'uso reale della lingua e la <strong>di</strong>ffusa presenza <strong>di</strong> costruzioni “marginali” o <strong>di</strong> dubbia accettabilità<br />

ne rendono l'annotazione ancora più <strong>di</strong>fficoltosa.<br />

In linea <strong>di</strong> principio, ogni struttura comparativa contiene un elemento “comparato” (quello<br />

tipicamente designato come primo termine <strong>di</strong> paragone) ed un elemento “comparativo” (detto anche<br />

secondo termine <strong>di</strong> paragone). Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL, tra i due elementi della struttura<br />

comparativa viene stabilita una relazione <strong>di</strong> tipo comp, dove la testa è rappresentata dall'elemento<br />

comparato e il <strong>di</strong>pendente dall'elemento comparativo; la funzione <strong>di</strong> elemento comparativo è<br />

esplicitamente marcata al livello del tratto ruolo del <strong>di</strong>pendente, al quale viene assegnato il valore<br />

“compar(ativo)”.<br />

70


Co<strong>di</strong>ce linea e Tema<br />

E' più intelligente dell’insegnante<br />

sogg (essere, .)<br />

pred (essere, intelligente)<br />

mod (intelligente, più)<br />

comp (intelligente, insegnante.)<br />

Ho visto più uomini che donne<br />

sogg (vedere, .)<br />

ogg (vedere, uomo)<br />

mod (uomo, più)<br />

comp (uomo, donna.)<br />

Questo schema <strong>di</strong> annotazione, per quanto non interamente sod<strong>di</strong>sfacente, risponde al criterio<br />

generale <strong>di</strong> non considerare come teste <strong>di</strong> una <strong>di</strong>pendenza parole con funzioni marcatamente<br />

grammaticali, appartenenti a classi chiuse. Inoltre risolve il problema dell’in<strong>di</strong>viduazione della testa<br />

anche in quei casi dove il grado comparativo risulta lessicalizzato (o realizzato sinteticamente),<br />

come in aggettivi del tipo migliore, maggiore ecc. Torneremo sulla comparazione nella parte finale<br />

<strong>di</strong> questa sezione per <strong>di</strong>scutere più nel dettaglio alcuni aspetti <strong>di</strong> questo fenomeno e dei problemi<br />

legati alla loro annotazione.<br />

5.2.10 Miscellanea<br />

In questa sezione, vengono riportate le specifiche <strong>di</strong> annotazione per costruzioni particolarmente<br />

ricorrenti in un corpus giornalistico quale quello della <strong>Treebank</strong> <strong>di</strong> SI-TAL: ad esempio, date,<br />

numeri, nomi propri, costruzioni appositive <strong>di</strong> vario tipo. Grammatiche <strong>di</strong> riferimento della lingua<br />

italiana relegano questa tipologia <strong>di</strong> costruzioni sintattiche ad una posizione del tutto marginale, ma<br />

nell'annotazione <strong>di</strong> un corpus <strong>di</strong> lingua reale non possono essere ignorate. I paragrafi che seguono<br />

dettagliano le specifiche <strong>di</strong> annotazione per questa miscellanea <strong>di</strong> costruzioni.<br />

5.2.10.1 Annotazione delle date<br />

All'interno <strong>di</strong> un testo, le date compaiono in più forme. Ad esempio:<br />

1. il 25 <strong>di</strong>cembre 1999 sono partito<br />

2. nel 2000, sono partito<br />

3. nel/in maggio, sono partito<br />

Per l'annotazione funzionale delle date, si è stabilito che la testa funzionale è costituita<br />

dall’elemento che seleziona la preposizione o l’articolo che precede l’intera espressione temporale.<br />

Nei casi precedenti, le teste funzionali sono rispettivamente 25 (1), 2000 (2) e maggio (3) dando<br />

così luogo alle seguenti annotazioni:<br />

1. mod (partire, 25.)<br />

mod (25, <strong>di</strong>cembre)<br />

mod (<strong>di</strong>cembre, 1999)<br />

2. mod (partire, 2000.)<br />

3. mod (partire, maggio.)<br />

71


Co<strong>di</strong>ce linea e Tema<br />

5.2.10.2 Annotazione <strong>di</strong> car<strong>di</strong>nalità complessa<br />

La maggior parte delle espressioni numeriche nell'uso reale del corpus non riportano la cifra<br />

come una espressione unica ma sono spesso riportate nei termini <strong>di</strong> espressioni del tipo “20 mila<br />

dollari”. Il problema <strong>di</strong> annotazione che si pone in questo caso riguarda il fatto se si debba fornire<br />

un'analisi interna <strong>di</strong> “20 mila” in termini <strong>di</strong> testa e <strong>di</strong>pendente. Considerata la tipologia <strong>di</strong> usi <strong>di</strong> cui<br />

vuole essere suscettibile la <strong>Treebank</strong> <strong>di</strong> SI-TAL, si è deciso <strong>di</strong> ricorrere alla soluzione <strong>di</strong> annotare<br />

“dollari” con una car<strong>di</strong>nalità complessa <strong>di</strong> “20 mila”, come esemplificato dall'esempio che segue:<br />

Sfiora i 4 mila miliar<strong>di</strong><br />

ogg_d (sfiorare, miliardo.)<br />

5.2.10.3 Annotazione <strong>di</strong> nomi propri<br />

5.2.10.3.1 Annotazione <strong>di</strong> nome e cognome<br />

Nel caso <strong>di</strong> nomi propri espressi in termini <strong>di</strong> nome e cognome qual è il caso <strong>di</strong> “Lamberto<br />

Dini”, è stato stabilito che, per questioni inerenti il recupero <strong>di</strong> informazioni dalla base dati, la testa<br />

debba essere il cognome della persona, mentre il nome costituisca un mo<strong>di</strong>ficatore del cognome<br />

stesso. Questo vale in<strong>di</strong>pendentemente dall'or<strong>di</strong>ne <strong>di</strong> apparizione <strong>di</strong> nome e cognome nel testo.<br />

5.2.10.3.2 Annotazione <strong>di</strong> nomi propri composti<br />

Per quanto riguarda casi quale “Carlo Azeglio Ciampi” in cui il nome <strong>di</strong> una persona è composto<br />

da due nomi e da un cognome, è stato deciso che si devono annotare i due nomi come due <strong>di</strong>versi<br />

mo<strong>di</strong>ficatori del cognome. Es.:<br />

Carlo Azeglio Ciampi<br />

mod (Ciampi, Carlo)<br />

mod (Ciampi, Azeglio)<br />

5.2.10.4 Annotazione <strong>di</strong> costruzioni appositive <strong>di</strong> vario tipo<br />

• Il neo ministro, Mario Rossi, ha deciso <strong>di</strong> <strong>di</strong>mettersi<br />

sogg (decidere, ministro)<br />

mod (ministro, neo)<br />

mod (ministro, Rossi)<br />

mod (Rossi, Mario)<br />

arg (decidere, <strong>di</strong>mettersi)<br />

• Elenco <strong>di</strong> istanze in costruzioni del tipo i seguenti in<strong>di</strong>ci: incremento … aumento … La<br />

strategia <strong>di</strong> annotazione che è stata decisa per il trattamento <strong>di</strong> questi casi consiste nel<br />

marcare le singole istanze che seguono i due punti come mo<strong>di</strong>ficatori della testa nominale<br />

in<strong>di</strong>ci.<br />

72


Co<strong>di</strong>ce linea e Tema<br />

5.2.10.5 Annotazione degli incisi in testa agli articoli<br />

Per quanto riguarda gli incisi che si trovano all’inizio <strong>di</strong> molti articoli e che sono solitamente<br />

rappresentati da nomi <strong>di</strong> località o <strong>di</strong> città, è stato deciso che non vengono annotati, data la <strong>di</strong>fficoltà<br />

<strong>di</strong> stabilire la natura della loro relazione con la frase che segue: può trattarsi della locazione<br />

dell'evento descritto nell'articolo, oppure del luogo della scrittura ma questo non può sempre essere<br />

inferito dal testo.<br />

Pisa. Nuovi sviluppi nell’indagine<br />

mod (sviluppo, nuovo)<br />

mod (sviluppi, indagine)<br />

5.2.10.6 Un caso particolare <strong>di</strong> congiunzione<br />

Un caso particolare <strong>di</strong> congiunzione è quello che si osserva in espressioni del tipo 11 e 30, un<br />

chilo e mezzo. In questo caso la congiunzione e non viene trattata come congiunzione coor<strong>di</strong>nante<br />

all'interno <strong>di</strong> una struttura coor<strong>di</strong>nata; viene piuttosto annotata come l'introduttore <strong>di</strong> un<br />

mo<strong>di</strong>ficatore, che è costituito da 30 e da mezzo nei casi riportati sopra.<br />

5.2.11 Problemi aperti<br />

Le specifiche ed i criteri <strong>di</strong> annotazione dettagliati finora hanno trovato nella <strong>Treebank</strong> <strong>di</strong> SI-<br />

TAL un fertile terreno <strong>di</strong> verifica. Rimangono comunque una serie <strong>di</strong> problemi aperti, <strong>di</strong> cui è<br />

emersa consapevolezza nel corso del processo <strong>di</strong> annotazione e per i quali – al momento - non è<br />

prospettata alcuna soluzione <strong>di</strong> annotazione. Tra questi, si annovera l'annotazione <strong>di</strong>:<br />

• espressioni complesse in lingua straniera, quali quali Massachussets Institute of Technology<br />

o Bank of China, che pongono il problema - oltre dello stabilire quale sia la testa e quale il<br />

<strong>di</strong>pendente - anche dell'annotazione della preposizione of. Analogo problema si pone per<br />

l'annotazione dell'espressione Cagnotti and Partners, in particolare per quanto riguarda<br />

l'annotazione della congiunzione straniera;<br />

• costruzioni ellittiche complesse: in una frase del tipo la RAI partiva da un volume <strong>di</strong> 30 mila<br />

spot, la Fininvest <strong>di</strong> 127 mila l’ellissi non riguarda un singolo costituente bensì un segmento<br />

<strong>di</strong> frase;<br />

• espressioni comparative con il secondo termine della comparazione <strong>di</strong>verso da un sintagma<br />

nominale.<br />

In relazione a quest’ultimo punto, va notato che l’evidenza del corpus ha messo in luce alcune<br />

inadeguatezze e insufficienze delle annotazioni proposte. Una revisione delle specifiche in corso<br />

d’opera, oltre a porre ovvi problemi <strong>di</strong> “allineamento” delle nuove annotazioni con le vecchie,<br />

avrebbe potuto rivelarsi in ultima analisi controproducente. C’era il rischio infatti che una revisione<br />

precipitosa delle specifiche relative all’annotazione <strong>di</strong> una sotto-classe <strong>di</strong> fenomeni risultasse infine<br />

incompatibile con altri fenomeni venuti alla luce più tar<strong>di</strong> nel corso dell’annotazione, con un<br />

preoccupante effetto <strong>di</strong> “revisioni a cascata”. Abbiamo pertanto preferito, in questa fase, premiare la<br />

coerenza complessiva della base dati risultante a spese dell’adeguatezza descrittiva dell’annotazione<br />

e della sua aderenza all’uso linguistico reale. Riportiamo qui <strong>di</strong> seguito alcuni dei problemi emersi e<br />

73


Co<strong>di</strong>ce linea e Tema<br />

delle possibili strategie con le quali affrontarli. Questa casistica resta frammentaria, e la <strong>di</strong>scussione<br />

che segue è ancora lontana dal definire un quadro coerente e esaustivo.<br />

Un primo problema è rappresentato dalla scelta <strong>di</strong> non annotare più come la testa <strong>di</strong> una<br />

relazione <strong>di</strong> <strong>di</strong>pendenza. Si consideri a questo proposito il seguente esempio:<br />

E' più intelligente dell’insegnante<br />

sogg (essere, .)<br />

pred (essere, intelligente)<br />

mod (intelligente, più)<br />

comp (intelligente, insegnante.)<br />

Considerare insegnante come sintatticamente <strong>di</strong>pendente da intelligente (piuttosto che da più)<br />

sembra non interamente adeguato sul piano sintattico, soprattutto in considerazione del fatto che più<br />

ha, in questo contesto, un chiaro uso avverbiale. Inoltre, mentre la relazione <strong>di</strong> <strong>di</strong>pendenza tra<br />

intelligente e insegnante sembra catturare una restrizione semantica tra le due parole, in un esempio<br />

come ho letto più libri <strong>di</strong> Mario, <strong>di</strong>venta <strong>di</strong>fficile postulare, per simmetria con l’esempio<br />

precedente, una restrizione <strong>di</strong> uguale natura tra libro e Mario. D’altra parte, il fatto che, in generale,<br />

la comparazione coinvolga tipicamente costruzioni grammaticali complesse costituisce un problema<br />

non banale per un livello <strong>di</strong> annotazione funzionale (come quello adottato in SI-TAL) che ha come<br />

obiettivo primario la definizione <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza tra parole “piene”.<br />

Un secondo problema è dato dall’uso del che per introdurre un secondo termine <strong>di</strong> paragone non<br />

costituito da un sintagma nominale, come nel seguente esempio:<br />

Gianni ha parlato più con te che con lui<br />

E’ chiaro che il tipo <strong>di</strong> relazione sintattica introdotta dal che (a <strong>di</strong>fferenza <strong>di</strong> quella introdotta dal<br />

<strong>di</strong> + secondo termine <strong>di</strong> paragone in dell’insegnante) è ortogonale rispetto alla <strong>di</strong>pendenza sintattica<br />

tra il sintagma preposizionale con te e il verbo parlare. Quale sia la natura della <strong>di</strong>pendenza<br />

introdotta dal che e come rappresentarla adeguatamente a livello <strong>di</strong> annotazione restano ancora oggi<br />

due problemi praticamente irrisolti. Il parallelo tra l’espressione più con te che con lui e sia con te<br />

che con lui sembrerebbe suggerire un trattamento della prima costruzione come una <strong>di</strong>pendenza<br />

simmetrica <strong>di</strong> tipo correlativo, da annotare come segue:<br />

obl(parlare,te.)<br />

obl(parlare,lui.)<br />

corr(te.< introsim =“più”, introdep=“con”>, lui.)<br />

dove “corr” in<strong>di</strong>ca appunto una relazione sintattica simmetrica <strong>di</strong> tipo correlativo. Questa soluzione<br />

ha una certa plausibilità dal punto <strong>di</strong> vista sintattico, che risulta corroborata dalla analogia tra le<br />

seguenti costruzioni comparative:<br />

Gianni ha mangiato più mele che arance<br />

Gianni ha mangiato tanto mele che/quanto arance<br />

Tuttavia, in un esempio come il seguente la natura simmetrica della correlazione risulta del tutto<br />

oscurata, e ancora una volta la soluzione proposta non sembra avere un grado sufficiente <strong>di</strong><br />

generalità:<br />

Gianni ha mangiato tante mele quante Maria<br />

74


Co<strong>di</strong>ce linea e Tema<br />

Quest’ultimo esempio evidenzia, a nostro avviso, la necessità <strong>di</strong> annotare in maniera <strong>di</strong>fferenziata<br />

gli introduttori del secondo termine <strong>di</strong> paragone. Accanto all’uso del <strong>di</strong> che definisce, nell’uso<br />

comparativo, una <strong>di</strong>pendenza sintattica fondamentalmente omogenea rispetto ad altre preposizioni,<br />

esistono altri introduttori del secondo termine <strong>di</strong> paragone, quali appunto che e quanto, che<br />

presentano una maggiore autonomia sul piano sintattico e semantico (quanto in particolare ha in<br />

molti casi un uso strettamente pronominale), e andrebbero quin<strong>di</strong> annotati, secondo noi, in maniera<br />

<strong>di</strong>stinta dal <strong>di</strong>. Detto questo, resta da capire quale tipo <strong>di</strong> relazione che e quanto stabiliscono con il<br />

secondo termine <strong>di</strong> paragone in senso stretto. Ma questo problema, a sua volta, non può che<br />

investire il trattamento delle ellissi in generale.<br />

Infine, la presenza <strong>di</strong> casi, alcune volte marginali, ma comunque <strong>di</strong> largo uso nel parlato quoti<strong>di</strong>ano,<br />

<strong>di</strong> costruzioni comparative fortemente ellittiche, sembra evidenziare ancora una volta la<br />

inadeguatezza delle nostre risorse espressive a livello <strong>di</strong> annotazione:<br />

?Gianni è più stanco che se avesse scalato una montagna.<br />

E’ probabilmente utile chiudere questa breve rassegna evidenziando la problematicità delle<br />

costruzioni comparative anche per schemi <strong>di</strong> annotazione che si basino sulla nozione <strong>di</strong> costituenza.<br />

Si noti, a questo proposito, che in una frase come quella che segue, l’ambito sintattico della<br />

comparazione copre una sequenza quale mangiato mele che non ha alcuno status sintattico<br />

plausibile dal punto <strong>di</strong> vista <strong>di</strong> un’analisi a costituenti:<br />

Gianni ha ascoltato più opere in vita sua che mangiato mele.<br />

5.3 Aspetti <strong>di</strong> annotazione con FunTAS<br />

L'annotazione funzionale della <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata effettuata manualmente con l'ausilio<br />

<strong>di</strong> FunTAS, il sotto-sistema <strong>di</strong> GesTALt <strong>di</strong> supporto all’annotazione sintattico-funzionale. La<br />

progettazione <strong>di</strong> FunTAS è avvenuta sulla base delle Specifiche Tecniche elaborate al termine della<br />

Linea 1.1, quando il processo <strong>di</strong> annotazione vero e proprio non era stato ancora avviato.<br />

La fase <strong>di</strong> annotazione vera e propria ha dunque costituito anche il primo momento <strong>di</strong><br />

validazione <strong>di</strong> FunTAS. Come è naturale, in questa fase sono emersi aspetti delle specifiche non<br />

coperti al livello dell'interfaccia del tool <strong>di</strong> annotazione e/o della struttura dati: ciò rendeva<br />

impossibile l'annotazione appropriata <strong>di</strong> certe costruzioni sintattiche. La correzione dei problemi<br />

emersi, al livello <strong>di</strong> FunTAS, è stata però effettuata solo in parte. Infatti, un'alterazione della<br />

struttura dei dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato avrebbe potuto<br />

compromettere la coerenza interna dei dati annotati della <strong>Treebank</strong>: questi casi sono stati quin<strong>di</strong><br />

gestiti me<strong>di</strong>ante l'adozione <strong>di</strong> co<strong>di</strong>fiche transitorie al livello della base <strong>di</strong> dati <strong>di</strong> GesTALt, che sono<br />

state riconvertite secondo quanto previsto dalle specifiche al livello dell'output in XML (per la<br />

rappresentazione XML dell’annotazione funzionale si rinvia all’Appen<strong>di</strong>ce 2).<br />

Nel corso del processo <strong>di</strong> annotazione, le specifiche iniziali sono state inoltre riviste ed integrate<br />

alla luce dell'evidenza linguistica emergente dal corpus. Anche in questo caso, non tutte le revisioni<br />

ed integrazioni apportate alle specifiche <strong>di</strong> annotazione hanno potuto essere assorbite al livello del<br />

tool <strong>di</strong> annotazione e della sottostante struttura dati: infatti, l'aggiornamento ha riguardato solo quei<br />

casi che non compromettevano la coerenza interna dei dati annotati. Di nuovo, gli altri casi sono<br />

stati gestiti me<strong>di</strong>ante soluzioni transitorie che permettevano la co<strong>di</strong>fica dell'informazione<br />

appropriata al livello del tool <strong>di</strong> annotazione e della relativa base <strong>di</strong> dati sfruttando tratti già presenti<br />

nella struttura dati.<br />

75


Co<strong>di</strong>ce linea e Tema<br />

Questa sezione documenta soluzioni <strong>di</strong> annotazione adottate transitoriamente, sia al livello delle<br />

relazioni funzionali (sezione 5.3.1), sia al livello della descrizione in tratti dei partecipanti alle<br />

relazioni (sezione 5.3.2) o dei valori loro assegnati (sezione 5.3.3).<br />

5.3.1 Una nuova relazione funzionale: CONCAT<br />

La relazione <strong>di</strong> concatenazione (concat) costituisce una relazione <strong>di</strong> basso livello che è stata<br />

introdotta per trattare casi in cui per l'annotazione funzionale sarebbe stato auspicabile il<br />

riconoscimento <strong>di</strong> una espressione polilessicale: ad esempio, espressioni in lingua straniera, oppure<br />

nomi propri italiani. Questa relazione mette in relazione <strong>di</strong> “concatenazione” i partecipanti cui viene<br />

applicata senza attribuirgli alcuna struttura interna. Casi tipici trattati con questo tipo <strong>di</strong> relazione<br />

sono rappresentati da Bank of China, Dolce & Gabbana, De Benedetti, La Repubblica così come<br />

tutte le denominazioni composte <strong>di</strong> persone, enti o <strong>di</strong>tte.<br />

La relazione <strong>di</strong> concatenazione viene stabilita a partire dal primo elemento che si incontra<br />

durante l’annotazione fino all’ultimo dell’espressione complessa, per esempio:<br />

Bank of China<br />

concat (bank, of)<br />

concat (of, China)<br />

Si noti che le relazioni <strong>di</strong> <strong>di</strong>pendenza che coinvolgono espressioni complesse co<strong>di</strong>ficate me<strong>di</strong>ante<br />

la relazione <strong>di</strong> concatenazione fanno riferimento al primo elemento dell'espressione. Quin<strong>di</strong>, in una<br />

frase del tipo La Bank of China ha deciso ... la relazione <strong>di</strong> soggetto viene stabilita tra decidere e<br />

bank.<br />

5.3.2 Annotazioni transitorie al livello della descrizione in tratti dei partecipanti<br />

Questa sezione illustra le annotazioni transitorie adottate per gestire le revisioni ed integrazioni<br />

delle specifiche che richiedevano l'inserimento <strong>di</strong> un nuovo tratto nella descrizione dei partecipanti<br />

alle relazioni funzionali. Considerate le <strong>di</strong>fficoltà derivanti dall'inserimento <strong>di</strong> un nuovo tratto nella<br />

struttura dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato, abbiamo optato per<br />

l'adozione – al livello <strong>di</strong> FunTAS/GesTALt - <strong>di</strong> co<strong>di</strong>fiche transitorie che sfruttano tratti già presenti<br />

nella struttura dati. In particolare, queste hanno riguardato gli attributi introduttore (sezione<br />

5.3.2.1) e <strong>di</strong>atesi (sezione 5.3.2.2). Si noti che quanto descritto in questa sezione vale soltanto per la<br />

base <strong>di</strong> dati sottostante a GesTALt, accessibile da FunTAS e ValTAS (si veda sezione 7); infatti,<br />

queste co<strong>di</strong>fiche transitorie sono state riviste e ristrutturate secondo quanto previsto dalle specifiche<br />

al livello dell'output in XML.<br />

5.3.2.1 L'attributo INTRODUTTORE<br />

Tra le relazioni funzionali, lo schema <strong>di</strong> annotazione <strong>di</strong>stingue relazioni <strong>di</strong> <strong>di</strong>pendenza e<br />

relazioni “simmetriche” (tipicamente relazioni <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione). Per le relazioni <strong>di</strong><br />

<strong>di</strong>pendenza e per quelle simmetriche sono previsti due <strong>di</strong>versi tipi <strong>di</strong> attributo introduttore:<br />

a. l’attributo introdep è utilizzato nel caso <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza (esso fa parte della<br />

descrizione del <strong>di</strong>pendente, cfr sezione 5.1.1.1.2.1);<br />

76


Co<strong>di</strong>ce linea e Tema<br />

b. l'attributo introsim è usato per in<strong>di</strong>care l’introduttore dei partecipanti a una relazione<br />

simmetrica (esso può essere associato ad entrambi i partecipanti alla relazione, cfr sezione<br />

5.1.1.2.1).<br />

Questa <strong>di</strong>stinzione non si riflette ad oggi nella struttura dei dati al livello della base <strong>di</strong> dati <strong>di</strong><br />

GesTALt che prevede un unico tratto “introduttore”, associato al secondo elemento della relazione,<br />

sia essa <strong>di</strong> <strong>di</strong>pendenza o <strong>di</strong> tipo simmetrico.<br />

Quin<strong>di</strong>, quando la relazione funzionale è <strong>di</strong> tipo {<strong>di</strong>p | sogg | comp | mod | arg | pred | non-pred |<br />

ogg_d | ogg_i | obl} l'attributo introduttore è da interpretarsi come introdep. Si veda l'esempio che<br />

segue:<br />

dove la relazione obl deve essere interpretata come segue:<br />

obl (andare, cordata )<br />

Invece, quando la relazione funzionale è <strong>di</strong> tipo simmetrico, ovvero {cong | <strong>di</strong>sg}, l'attributo<br />

introduttore è da interpretarsi come introsim, come illustrato nell'esempio che segue:<br />

dove la relazione cong deve essere interpretata come segue:<br />

cong (chiudere, attestare )<br />

All'attributo introduttore possono essere assegnati anche valori complessi (separati da “_”) che<br />

debbono essere ri<strong>di</strong>stribuiti tra i vari partecipanti alla relazione. Si considerino i seguenti casi:<br />

77


Co<strong>di</strong>ce linea e Tema<br />

1. Strutture coor<strong>di</strong>nate del tipo sia … sia, né … né, tanto …quanto. La figura che segue illustra<br />

il trattamento <strong>di</strong> strutture coor<strong>di</strong>nate complesse:<br />

Come nei casi precedentemente illustrati, l'informazione relativa alle congiunzioni<br />

coor<strong>di</strong>nanti è riportata a questo livello come valore dell'attributo introduttore<br />

(appositamente marcato da @) associato al secondo elemento della struttura coor<strong>di</strong>nata: nel<br />

caso entrambi gli elementi della struttura coor<strong>di</strong>nata siano introdotti da una congiunzione,<br />

entrambe le congiunzioni sono riportate nella descrizione del secondo elemento separate da<br />

“_” come illustrato sopra. La relazione cong nell'esempio sopra deve essere interpretata<br />

come segue:<br />

cong (consumo., prenotazione.)<br />

2. Strutture coor<strong>di</strong>nate miste del tipo tanto a casa … quanto a scuola. In questi casi al livello <strong>di</strong><br />

FunTAS viene assegnato al tratto introduttore il valore complesso “@tanto_in_quanto_in”<br />

da interpretarsi come segue:<br />

cong (casa., scuola.)<br />

Il tratto introduttore viene anche usato in altri casi. Definitezza costituisce un tratto dello<br />

schema <strong>di</strong> annotazione il cui dominio <strong>di</strong> applicazione è risultato troppo ristretto, in quanto è stato<br />

associato nell'interfaccia <strong>di</strong> FunTAS soltanto alla descrizione dei <strong>di</strong>pendenti nominali con parte del<br />

<strong>di</strong>scorso uguale a “S” o “SP”. Nel corso dell'annotazione la specificazione <strong>di</strong> tale attributo è invece<br />

risultata necessaria anche in relazione a <strong>di</strong>pendenti <strong>di</strong> tipo pronominale (per pronomi <strong>di</strong> tipo il<br />

quale, il cui etc.), numerale, aggettivale, e verbale (per trattare casi <strong>di</strong> nominalizzazioni, il 1994_n il<br />

bello_agg oppure nel vedere_v); questo vale anche nel caso il <strong>di</strong>pendente sia costituito da una<br />

abbreviazione. In questi casi, l'informazione relativa alla definitezza è stata transitoriamente<br />

co<strong>di</strong>ficata al livello del tratto introduttore, marcando il valore come non appropriato (ovvero<br />

facendolo precedere da @), come illustrato nella figura che segue:<br />

78


Co<strong>di</strong>ce linea e Tema<br />

dove la definitezza del <strong>di</strong>pendente numerale è specificata attraverso il valore @il associato al<br />

tratto introduttore.<br />

5.3.2.2 L'attributo DIATESI<br />

Durante il processo <strong>di</strong> annotazione con FunTAS l’attributo <strong>di</strong>atesi è stato utilizzato non solo per<br />

in<strong>di</strong>care la <strong>di</strong>atesi del verbo interessato (attiva, passiva o me<strong>di</strong>a), come da specifiche, ma anche per<br />

marcare altre informazioni relative alla testa verbale. Per la co<strong>di</strong>fica <strong>di</strong> queste informazioni lo<br />

schema <strong>di</strong> annotazione è stato integrato da nuovi tratti, rispettivamente syn_form e reflex (se<br />

vedano le sezioni 5.1.1.1.2.2). Considerate le <strong>di</strong>fficoltà derivanti dall'inserimento <strong>di</strong> un nuovo tratto<br />

nella struttura dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato, abbiamo optato<br />

per una co<strong>di</strong>fica transitoria che sfruttava tratti già presenti nella struttura dati. Quin<strong>di</strong>, alla lista<br />

iniziale dei valori <strong>di</strong> <strong>di</strong>atesi sono stati aggiunti, lungo il corso dell’annotazione, anche i seguenti<br />

valori che sono stati marcati con # che ne in<strong>di</strong>ca la non <strong>di</strong>retta pertinenza rispetto all'attributo <strong>di</strong> cui<br />

costituiscono valore (si veda la sezione 4.1.2.3.1.1 del rapporto “Primo Prototipo” relativo alla<br />

Linea 1.2):<br />

1. #rifl: questo valore marca i verbi riflessivi propri;<br />

2. #rifl_app: questo valore marca i riflessivi apparenti;<br />

3. #ipron: questo valore marca la variante intransitiva <strong>di</strong> una parte dei verbi ergativi ed i verbi<br />

inerentemente riflessivi:<br />

4. #impers: questo valore marca la costruzione impersonale;<br />

5. #impers_si: questo valore marca la costruzione con “si” impersonale;<br />

6. #passivo_si: questo valore marca la costruzione con “si” passivante;<br />

7. #rifl_ci_si: questo valore marca la costruzione riflessiva con “si” impersonale (es. ci si<br />

lava);<br />

8. #rifl_app_ci_si: questo valore marca la costruzione riflessiva apparente con “si” impersonale<br />

(es. ci si lava le mani).<br />

Al livello dell'output in XML, i valori dell'attributo <strong>di</strong>atesi preceduti da # sono stati riassegnati<br />

agli attributi <strong>di</strong> <strong>di</strong>retta pertinenza (syn_form e/o reflex).<br />

5.3.3 Valori particolari per INTRODEP<br />

Questo punto riguarda l'annotazione <strong>di</strong> espressioni polilessicali <strong>di</strong> base non correttamente<br />

identificate al livello dell'annotazione morfo-sintattica. Quando queste espressioni polilessicali<br />

appaiono nella funzione <strong>di</strong> introduttore è stata adottata la seguente strategia <strong>di</strong> annotazione:<br />

Noi siamo andati sino a Roma<br />

obl (andare, Roma.)<br />

Questo tipo <strong>di</strong> annotazione permetterà, in una fase successiva <strong>di</strong> revisione della <strong>Treebank</strong>, il<br />

recupero <strong>di</strong> questi casi (spora<strong>di</strong>ci) e la relativa correzione. Purtroppo, tutte le correzioni che<br />

79


Co<strong>di</strong>ce linea e Tema<br />

richiedevano una rinumerazione delle parole al livello dell'input non potevano essere apportate dato<br />

che l'annotazione si è svolta in parallelo per i <strong>di</strong>versi livelli e questo avrebbe potuto inficiare<br />

l'integrità dei dati nella base <strong>di</strong> dati sottostante a GesTALt.<br />

6 Specifiche <strong>di</strong> annotazione per il livello semantico-lessicale<br />

Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL l’annotazione semantico-lessicale è consistita nell’assegnazione alle<br />

occorrenze <strong>di</strong> verbi, nomi e aggettivi <strong>di</strong>:<br />

i. un identificatore (numero) <strong>di</strong> senso nella risorsa lessicale <strong>di</strong> riferimento (IWN-Gen e/o<br />

EcoWN);<br />

ii.<br />

tratti, espressi in termini <strong>di</strong> coppie attributo/valore, <strong>di</strong> due tipi:<br />

• semantico, che convogliano informazioni semantico-lessicali (es. per contrad<strong>di</strong>stinguere<br />

gli i<strong>di</strong>omi, le metafore, ecc.);<br />

• ad uso dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per<br />

segnalare casi dubbi, ecc.).<br />

Le specifiche che seguono costituiscono l’ossatura portante dello schema <strong>di</strong> annotazione per<br />

questo livello. Esse raccolgono le revisioni ed integrazioni emerse nella fase <strong>di</strong> applicazione dello<br />

schema <strong>di</strong> annotazione al corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />

6.1 L’annotazione semantico-lessicale: tipologia degli elementi<br />

L’annotazione semantico-lessicale identifica delle unità <strong>di</strong> senso che possono corrispondere a:<br />

• singole parole ortografiche (un singolo Sostantivo, Verbo o Aggettivo);<br />

• due o più parole ortografiche nel caso <strong>di</strong> espressioni polilessicali (genericamente denotate<br />

in inglese come multi-word expressions) che compongono una unica unità <strong>di</strong> senso (es.<br />

composti, i<strong>di</strong>omi ecc.).<br />

Gli elementi annotati a livello semantico-lessicale sono <strong>di</strong> tre tipi:<br />

• USS (unità semantica semplice)<br />

• USC (unità semantica <strong>di</strong> tipo complesso)<br />

• UST (unità semantica <strong>di</strong> tipo titolo).<br />

L’elemento USS punta ad una singola parola, mentre l’elemento USC punta a più parole del testo<br />

<strong>di</strong> input, ovvero ad un’espressione polilessicale. Infine l’elemento UST può puntare sia ad una<br />

singola parola che a più parole a<strong>di</strong>acenti e serve per annotare titoli <strong>di</strong> libri, giornali, spettacoli ecc.<br />

Al contrario dell’elemento USS che può riferirsi solo a parole piene del testo (in particolare,<br />

sostantivi, verbi o aggettivi), sia USC che UST possono includere anche parole grammaticali (es.<br />

preposizioni, articoli, ecc.) facenti parte dell’espressione. Es.:<br />

• USC: mettere a ferro e fuoco<br />

80


Co<strong>di</strong>ce linea e Tema<br />

• UST: Il nome della rosa<br />

Le espressioni polilessicali si <strong>di</strong>stinguono in “continue” e “<strong>di</strong>scontinue”. Si parla <strong>di</strong> espressioni<br />

continue quando sono composte da più unità ortografiche a<strong>di</strong>acenti senza nessuna interruzione,<br />

mentre nel caso opposto si parla <strong>di</strong> espressioni <strong>di</strong>scontinue. Per questa ragione una unità <strong>di</strong> senso<br />

complessa (USC) può riferirsi a più parole ortografiche che risultano separate tra loro da una serie<br />

variabile <strong>di</strong> altre parole e, talvolta, ad<strong>di</strong>rittura invertite nell’or<strong>di</strong>ne come mostrano gli esempi<br />

seguenti:<br />

• <strong>di</strong>scontinuità: (es. mettere (tutto) per iscritto);<br />

• inversione: (es. ‘Traguar<strong>di</strong> ambiziosi, insomma, che la Consulta delle professioni non<br />

regolamentate, inse<strong>di</strong>atasi ieri a Villa Lubin, è comunque convinta <strong>di</strong> riuscire a tagliare’).<br />

Le espressioni continue sono in prevalenza nomi composti e in generale sequenze senza verbo,<br />

mentre quelle <strong>di</strong>scontinue possono essere i<strong>di</strong>omi e costruzioni con verbi supporto e più in generale<br />

espressioni che includono un verbo.<br />

Si noti che l’annotazione delle espressioni polilessicali non presuppone l’annotazione semanticolessicale<br />

dei suoi singoli componenti. Da un punto <strong>di</strong> vista linguistico ciò è giustificato dal fatto che<br />

tali espressioni non sono in molti casi composizionali semanticamente (o lo sono solo parzialmente)<br />

e talvolta appare <strong>di</strong>fficile o ad<strong>di</strong>rittura impossibile assegnare un senso, tra quelli attestati nella<br />

risorsa lessicale <strong>di</strong> riferimento, ai suoi componenti (es. si pensi all’aggettivo rosa nella sequenza<br />

cronaca rosa).<br />

6.2 L’annotazione semantico-lessicale: tratti descrittivi<br />

I seguenti tratti sono usati nella descrizione dei vari tipi <strong>di</strong> elementi semantici (USS, USC e UST):<br />

• dbref (database <strong>di</strong> riferimento)<br />

• ns (numero <strong>di</strong> senso)<br />

• lem (lemma)<br />

• pos (parte del <strong>di</strong>scorso)<br />

• alter(azione)<br />

• fig(urato)<br />

• np (nome proprio)<br />

• tipousc (tipo <strong>di</strong> unità semanticamente complessa)<br />

• tipolemma<br />

• tipot (tipo <strong>di</strong> titolo)<br />

• nota<br />

• comm<br />

Essi sono illustrati nelle sezioni che seguono.<br />

81


Co<strong>di</strong>ce linea e Tema<br />

6.2.1 dbref (database <strong>di</strong> riferimento)<br />

Il tratto dbref (database <strong>di</strong> riferimento) consente <strong>di</strong> specificare la risorsa lessicale <strong>di</strong> riferimento<br />

selezionata per l’annotazione, ovvero:<br />

• IWN-Gen, per il lessico generico;<br />

• EcoWN, per il lessico specialistico (finanziario).<br />

6.2.2 ns (numero <strong>di</strong> senso)<br />

Il tratto ns (numero <strong>di</strong> senso) consente, per ogni occorrenza annotata, <strong>di</strong> specificare il numero <strong>di</strong><br />

senso nella risorsa lessicale <strong>di</strong> riferimento (IWN-Gen/EcoWN) o l’eventuale assenza del senso. I<br />

suoi possibili valori sono:<br />

• un numero <strong>di</strong> senso;<br />

• due o più numeri <strong>di</strong> senso congiunti attraverso l’utilizzo dell’operatore logico <strong>di</strong><br />

congiunzione (S1&S2) nei casi in cui più <strong>di</strong> un senso <strong>di</strong> IWN-Gen/EcoWN si applichi al<br />

contesto specifico;<br />

• due sensi <strong>di</strong>sgiunti attraverso l’utilizzo dell’operatore logico <strong>di</strong> <strong>di</strong>sgiunzione (S1|S2) nei<br />

casi in cui il contesto non fornisca informazione sufficiente per poter decidere tra <strong>di</strong>versi<br />

sensi riportati in IWN-Gen/EcoWN;<br />

• il valore no_senso quando la risorsa lessicale <strong>di</strong> riferimento non registra il senso<br />

attestato nel contesto in corso <strong>di</strong> annotazione; nel caso <strong>di</strong> SI-TAL, si tratta generalmente<br />

<strong>di</strong> un valore provvisorio, che verrà sostituito dall’assegnazione definitiva una volta che<br />

la risorsa lessicale <strong>di</strong> riferimento sarà stata integrata con il senso mancante;<br />

• il valore no_lemma quando la risorsa lessicale <strong>di</strong> riferimento non registra il lemma<br />

dell’occorrenza in corso <strong>di</strong> annotazione; nel caso <strong>di</strong> SI-TAL, si tratta <strong>di</strong> un valore<br />

provvisorio, che verrà sostituito dall’assegnazione definitiva una volta che la risorsa<br />

lessicale <strong>di</strong> riferimento sarà stata integrata con l’informazione mancante;<br />

• il valore no viene assegnato per i lemmi <strong>di</strong> cui non è previsto l’inserimento in IWN-<br />

Gen/EcoWN. Ciò si verifica essenzialmente in tre casi, ovvero, con alcuni nomi propri<br />

(ad esempio, <strong>di</strong> persona), titoli in generale (<strong>di</strong> giornale o rivista, ecc.), parole straniere<br />

non entrate nell’uso corrente dell’italiano.<br />

6.2.3 lem (lemma)<br />

Il tratto lem (lemma) consente <strong>di</strong> specificare il lemma dell’occorrenza che si sta annotando a<br />

livello semantico-lessicale. Va precisato che tale informazione è già presente al livello dell’input<br />

all’annotazione semantico-lessicale ma deve, invece, essere sempre specificato per le espressioni<br />

polilessicali riconosciute ed annotate come tali a questo livello (USC) e per i titoli (UST).<br />

82


Co<strong>di</strong>ce linea e Tema<br />

6.2.4 pos (parte del <strong>di</strong>scorso)<br />

L’attributo pos (parte del <strong>di</strong>scorso) specifica la categoria morfo-sintattica dell’occorrenza che si<br />

sta annotando a livello semantico-lessicale. Tale informazione, che è già presente al livello<br />

dell’input all’annotazione semantico-lessicale, deve essere sempre specificata per le espressioni<br />

polilessicali riconosciute ed annotate come tali a questo livello (USC).<br />

6.2.5 alter(azione)<br />

L’attributo alter (alterazione) viene usato nella descrizione <strong>di</strong> USS nel caso in cui la parola in<br />

corso <strong>di</strong> annotazione sia un alterato o un aggettivo superlativo o comparativo: esso consente <strong>di</strong><br />

segnalare la presenza <strong>di</strong> un suffisso alterativo (e <strong>di</strong> specificarne il tipo) o del suffisso per la<br />

formazione del superlativo o la presenza <strong>di</strong> un comparativo. I suoi possibili valori sono:<br />

• <strong>di</strong>m per i <strong>di</strong>minutivi;<br />

• accr per gli accrescitivi;<br />

• <strong>di</strong>spr per i <strong>di</strong>spregiativi;<br />

• vezz per i vezzeggiativi;<br />

• sup per gli aggettivi superlativi;<br />

• compar per gli aggettivi comparativi;<br />

• alter valore sottospecificato per i casi <strong>di</strong>versi dai precedenti.<br />

Nel caso degli alterati, l’attributo alter può ricevere un valore unico (es. alter=<strong>di</strong>m) oppure una<br />

coppia <strong>di</strong> valori (nel caso in cui sia utilizzato più <strong>di</strong> un suffisso alterativo) che vanno specificati<br />

rispettando l’or<strong>di</strong>ne in cui sono combinati nell’occorrenza che si sta annotando (es. alter=<strong>di</strong>spr,accr<br />

per la parola omaccione). Il valore “alter” va utilizzato per i casi in cui tutti gli altri valori non sono<br />

applicabili.<br />

6.2.6 fig(urato)<br />

Si ricorre all’attributo fig (figurato) nel caso in cui si sia in presenza <strong>di</strong> un uso figurato. Si<br />

applica sia a unità <strong>di</strong> tipo USS che <strong>di</strong> tipo USC; in quest’ultimo caso, la specifica <strong>di</strong> uso figurato è<br />

limitata ai composti (es. mettere a fuoco il problema). I valori che possono essere assegnati a fig<br />

sono:<br />

• metaf per gli usi metaforici;<br />

• meton per gli usi metonimici;<br />

• fig valore sottospecificato per marcare casi <strong>di</strong> usi figurati <strong>di</strong>versi dai precedenti.<br />

83


Co<strong>di</strong>ce linea e Tema<br />

6.2.7 np (nome proprio)<br />

Quando si è in presenza <strong>di</strong> un nome proprio <strong>di</strong> persona, gruppo, luogo o prodotto, la descrizione<br />

<strong>di</strong> unità <strong>di</strong> tipo USS e USC include anche l’attributo np (nome proprio), che consente <strong>di</strong> ricondurre il<br />

nome proprio ad una specifica classe semantica <strong>di</strong> IWN (es. quella <strong>di</strong> “persona”).<br />

I valori <strong>di</strong> questo attributo previsti ad oggi sono:<br />

• pers per i nomi propri <strong>di</strong> persona;<br />

• grup per i nomi propri che si riferiscono a gruppo <strong>di</strong> persone;<br />

• luogo per i nomi propri <strong>di</strong> luogo;<br />

• man (manufatto) per i nomi propri <strong>di</strong> prodotti e manufatti in generale;<br />

• grup&luog per i nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente<br />

intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano<br />

d’Inghilterra);<br />

• np valore sottospecificato per in<strong>di</strong>care i casi <strong>di</strong>versi dai precedenti.<br />

E’ infine prevista la possibilità <strong>di</strong> avere una congiunzione/<strong>di</strong>sgiunzione <strong>di</strong> valori per i casi in cui<br />

non sia chiaro il referente del nome proprio.<br />

6.2.8 tipousc (tipo <strong>di</strong> unità semanticamente complessa)<br />

L’attributo tipousc (tipo <strong>di</strong> unità semanticamente complessa) consente <strong>di</strong> specificare quale tipo<br />

<strong>di</strong> espressione polilessicale sia in corso <strong>di</strong> annotazione (es. i<strong>di</strong>oma, composto o costruzione con<br />

verbo supporto).<br />

I suoi possibili valori sono:<br />

• i<strong>di</strong>oma per annotare le espressioni i<strong>di</strong>omatiche;<br />

• comp per annotare i composti;<br />

• vsup per annotare le espressioni a verbo supporto;<br />

• np per l’annotazione <strong>di</strong> nomi propri costituiti da espressioni polilessicali (es. Nuova Zelanda,<br />

Stati Uniti d’America, Giulio Andreotti, Real Madrid, ecc.);<br />

• tipousc per l’annotazione <strong>di</strong> eventuali formule <strong>di</strong> routine (es. per così <strong>di</strong>re, si fa per <strong>di</strong>re), ed<br />

altri casi non coperti dai valori precedenti.<br />

6.2.9 tipolemma<br />

L’attributo tipolemma convoglia informazione relativa al registro linguistico dell’unità in corso<br />

<strong>di</strong> annotazione: ad esempio, consente <strong>di</strong> specificare se l’unità semantica in corso <strong>di</strong> annotazione è<br />

costituita da una voce <strong>di</strong>alettale (marcata da “<strong>di</strong>al”) oppure da un neologismo (marcato con<br />

“neolog”). Questo tratto può rendere conto dell’assenza del termine descritto nella risorsa lessicale<br />

84


Co<strong>di</strong>ce linea e Tema<br />

<strong>di</strong> riferimento: si consideri come esempio il neologismo pi<strong>di</strong>essino, designante gli esponenti del<br />

partito PDS, abbastanza frequente nel corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />

6.2.10 tipot (tipo <strong>di</strong> titolo)<br />

L’attributo tipot (tipo <strong>di</strong> titolo) è specifico delle unità <strong>di</strong> tipo UST: esso specifica il tipo <strong>di</strong> entità<br />

alla quale il titolo si riferisce. I suoi possibili valori ad oggi sono:<br />

• semiotico per i titoli <strong>di</strong> un testo scritto (giornale, libro ecc.);<br />

• spettacolo per i nomi <strong>di</strong> spettacoli;<br />

• tipot per casi <strong>di</strong>versi dai precedenti;<br />

• indef (indefinito) quando l’informazione non può essere desunta dal contesto e l’annotatore<br />

non lo sa.<br />

6.2.11 Altri tratti che possono essere usati nella definizione <strong>di</strong> unità <strong>di</strong> senso<br />

Come segnalato in precedenza, l’annotazione a questo livello può anche includere tratti ad uso<br />

dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per segnalare casi dubbi,<br />

ecc.). Lo schema <strong>di</strong> annotazione ne prevede due: nota e comm(ento), illustrati nelle sezioni che<br />

seguono.<br />

6.2.11.1 nota<br />

L’attributo nota è usato per segnalare assegnazioni <strong>di</strong> senso dubbie. I suoi possibili valori sono:<br />

• sn_in<strong>di</strong>st (senso in<strong>di</strong>stinto) nel caso <strong>di</strong> dubbio <strong>di</strong> interpretazione dei sensi riportati nella<br />

risorsa lessicale <strong>di</strong> riferimento;<br />

• sn_inc (senso incerto) per segnalare la necessità <strong>di</strong> rivedere/ricontrollare l’annotazione.<br />

6.2.11.2 comm(ento)<br />

L’attributo comm (commento) è usato per inserire un commento ad uso dell’annotatore. Nel<br />

corso dell’annotazione si è largamente fatto uso <strong>di</strong> questo attributo per depositare informazioni utili<br />

non solo ai fini dell’annotazione in sé ma anche in relazione alle risorse lessicali utilizzate,<br />

soprattutto in termini <strong>di</strong> segnalazioni <strong>di</strong> lemmi mancanti, sensi mancanti, sensi dubbi oppure<br />

proposte <strong>di</strong> aggiornamento e integrazione della risorsa lessicale <strong>di</strong> riferimento, ad esempio,<br />

me<strong>di</strong>ante l’inserimento <strong>di</strong> espressioni polilessicali.<br />

La tabella che segue riporta le sigle usate nella compilazione <strong>di</strong> tale attributo nel corso<br />

dell’annotazione delle due partizioni della <strong>Treebank</strong>, quella bilanciata e quella finanziaria:<br />

Corpus<br />

Bilanciato<br />

Abbreviazione<br />

Corpus<br />

Finanziario<br />

Significato<br />

ML m.l manca lemma in IWN- per in<strong>di</strong>care lemmi mancanti<br />

Uso<br />

85


Co<strong>di</strong>ce linea e Tema<br />

Corpus<br />

Bilanciato<br />

Abbreviazione<br />

Corpus<br />

Finanziario<br />

Significato<br />

Gen/EcoWN<br />

MS m.s manca senso specifico in<br />

IWN-Gen/EcoWN<br />

MOR - manca la variante<br />

ortografica in IWN-<br />

Gen/EcoWN<br />

Uso<br />

per in<strong>di</strong>care sensi mancanti, ovvero il lemma in<br />

questione è previsto nella risorsa lessicale <strong>di</strong><br />

riferimento ma non secondo il senso attestato nel<br />

corpus<br />

per in<strong>di</strong>care varianti ortografiche mancanti, attestate<br />

nel corpus ma non comprese nel synset <strong>di</strong> IWN-<br />

Gen/EcoWN<br />

PSTR p. str parola straniera per segnalare una parola straniera che può essere<br />

presente o meno nella risorsa lessicale <strong>di</strong> riferimento.<br />

Per quanto sia prevista a livello morfo-sintattico<br />

l’etichetta "SW" ad in<strong>di</strong>care tali parole, poiché non<br />

tutte risultano marcate come tali nel file <strong>di</strong> input, si è<br />

deciso <strong>di</strong> segnalarle anche attraverso il campo<br />

‘Commento’.<br />

- acron acronimo per segnalare acronimi, sigle, abbreviazioni<br />

IN FASE DI<br />

PROPOSTA<br />

odv<br />

proposta <strong>di</strong> inserimento<br />

in corso <strong>di</strong> valutazione<br />

da parte dei lessicografi<br />

per segnalare una proposta <strong>di</strong> inserimento nel lessico<br />

<strong>di</strong> riferimento, soprattutto nel caso <strong>di</strong> espressioni<br />

polilessicali corrispondenti a unità semantiche<br />

complesse (o USC)<br />

- +IWN-Gen-Gen proposta <strong>di</strong> inserimento<br />

in IWN-Gen-Gen<br />

per segnalare una proposta <strong>di</strong> inserimento nel<br />

<strong>di</strong>zionario generico.<br />

- +EcoWN proposta <strong>di</strong> inserimento<br />

in EcoWN<br />

per segnalare una proposta <strong>di</strong> inserimento nel<br />

<strong>di</strong>zionario terminologico.<br />

- ? caso dubbio per segnalare casi dubbi per i quali l’annotazione è<br />

stata completata ma senza un grado <strong>di</strong> certezza<br />

elevato. In particolare, nel dubbio che la parola possa<br />

rappresentare un costituente <strong>di</strong> un’espressione<br />

polilessicale (es. capo/capo <strong>di</strong> stato), tale dubbio,<br />

laddove non sia stato sciolto interpellando<br />

<strong>di</strong>rettamente i co<strong>di</strong>ficatori della risorsa lessicale,<br />

viene espresso specificando l’espressione<br />

polilessicale (es. per il lemma capo comm= ?c. <strong>di</strong><br />

stato)<br />

SENSO<br />

INCERTO<br />

- senso incerto occorrenza a cui non si può assegnare un senso<br />

preciso della risorsa lessicale <strong>di</strong> riferimento per uno<br />

dei seguenti motivi: 1) è stata usata in modo del tutto<br />

personale dall’autore (ciò accade talvolta in contesti<br />

<strong>di</strong> critica letteraria o <strong>di</strong> argomento sportivo dove può<br />

essere fatto un uso libero del linguaggio); 2) non è<br />

comprensibile il senso dal contesto; 3) potrebbe<br />

essere (ma non si è sicuri) <strong>di</strong> un caso <strong>di</strong> senso<br />

mancante in IWN-Gen<br />

LOC - locuzione frasale etichetta molto generica che include un’ampia<br />

gamma <strong>di</strong> casi in cui un lemma sembra occorrere in<br />

una locuzione frasale (es. locuzioni avverbiali o<br />

preposizionali, o in sequenze che si presentano come<br />

possibili unità semantiche complesse)<br />

ROUTINE - routine formula segnala che il lemma occorre all’interno <strong>di</strong> una<br />

FORMULAE<br />

POS pos e. probabile errore <strong>di</strong><br />

assegnazione della<br />

categoria morfosintattica<br />

"routine formula"<br />

per segnalare errori <strong>di</strong> etichettatura morfo-sintattica<br />

presenti al livello dell'input dell'annotazione (es. es.<br />

pubblico=S invece <strong>di</strong> A)<br />

RIF - probabile errore <strong>di</strong> casi in cui è probabilmente necessaria una mo<strong>di</strong>fica<br />

86


Co<strong>di</strong>ce linea e Tema<br />

Corpus<br />

Bilanciato<br />

Abbreviazione<br />

Corpus<br />

Finanziario<br />

Significato<br />

assegnazione del lemma<br />

<strong>di</strong> verbi pronominali<br />

LEMMA - probabile errore <strong>di</strong><br />

assegnazione del lemma<br />

Uso<br />

del lemma <strong>di</strong> input per la presenza <strong>di</strong> una forma<br />

pronominale ecc. (es. inginocchiare invece <strong>di</strong><br />

inginocchiarsi).<br />

probabile errore (già presente nel file <strong>di</strong> input) <strong>di</strong><br />

assegnazione del lemma (es. stra<strong>di</strong>na invece <strong>di</strong><br />

strada).<br />

Si noti che la casistica segnalata attraverso questo attributo non è esattamente la stessa nei due<br />

corpora, anche in considerazione delle <strong>di</strong>verse problematiche che gli annotatori delle due partizioni<br />

si sono trovati ad affrontare. Vi è comunque una sovrapposizione significativa della casistica<br />

segnalata nei due corpora (bilanciato e finanziario).<br />

Parte dei problemi segnalati attraverso questo attributo sono legati alle modalità <strong>di</strong> annotazione<br />

seguite nel progetto; ad esempio, al fatto che il tool <strong>di</strong> annotazione SemTas (cfr sezione 7) non<br />

rende visibili alcune features dell’input dall’interfaccia <strong>di</strong> annotazione, oppure al fatto che<br />

l'annotazione funzionale - venendo sviluppata in parallelo - non è accessibile all'annotatore<br />

semantico. Pertanto, piuttosto che commettere un errore <strong>di</strong> assegnazione del senso, nell’ambito<br />

dell’annotazione del corpus generico si è preferito fare ampio uso dell’etichetta RIF. Invece,<br />

l’assegnazione delle etichette LOC e ROUTINE FORMULAE è stata preferita all’assegnazione <strong>di</strong><br />

un senso scelto in modo arbitrario tra quelli registrati nella risorsa lessicale <strong>di</strong> riferimento (per<br />

quanto l’uso <strong>di</strong> tali etichette non è stato applicato per tutte le USC create, in<strong>di</strong>pendentemente che<br />

fossero presenti o assenti dal lessico <strong>di</strong> riferimento).<br />

Si noti infine che le abbreviazioni riportate nella tabella sopra possono talora essere combinate<br />

(es. ‘odv; +EcoWN’ ad in<strong>di</strong>care una proposta <strong>di</strong> espressione polilessicale che si è ritenuta propria<br />

del dominio finanziario) assumendo così un significato più specifico.<br />

Si tenga inoltre presente che nell’ambito del corpus finanziario, per quanto non siano state<br />

previste le etichette LOC, RIF e LEMMA si è comunque preso nota delle informazioni ad esse<br />

relative nell’ottica <strong>di</strong> comunicarle ai lessicografi.<br />

Per entrambi i corpora, l’attributo comm è stato compilato al fine <strong>di</strong> pre<strong>di</strong>sporre il recupero <strong>di</strong><br />

casi dubbi attraverso il tool <strong>di</strong> browsing dei dati - ovvero ValTAS: es. recupera tutte le USC proposte<br />

ai lessicografi <strong>di</strong> IWN, ovvero con campo comm=”odv”. Il vantaggio è inteso sia dal punto <strong>di</strong> vista<br />

dell’annotazione (per eventuali estensioni e revisioni della <strong>Treebank</strong>) sia dal punto <strong>di</strong> vista della<br />

revisione e aggiornamento delle risorse lessicali (per eventuali estensioni e revisioni dei <strong>di</strong>zionari <strong>di</strong><br />

riferimento).<br />

Si tenga però conto che tutte le segnalazioni fatte nel campo “Commento“ sono relative alla<br />

versione delle risorse lessicali messe a <strong>di</strong>sposizione degli annotatori da parte del tema IWN. Non è<br />

quin<strong>di</strong> escluso che parte <strong>di</strong> tali segnalazioni siano <strong>di</strong>venute irrilevanti con una versione successiva<br />

della risorsa IWN poiché nel frattempo i lessicografi hanno mo<strong>di</strong>ficato/integrato la risorsa lessicale<br />

nei termini suggeriti dagli annotatori. Va inoltre detto che le USC e i sensi nuovi proposti non<br />

devono necessariamente essere inseriti nel lessico. L’esigenza <strong>di</strong> marcare certe sequenze nel corpus<br />

(es. metafore, usi figurati, nomi propri, ecc.), per renderle poi facilmente reperibili, può avere una<br />

valenza strettamente limitata all’annotazione semantico-lessicale, molto utile per futuri trattamenti<br />

delle espressioni polilessicali.<br />

87


Co<strong>di</strong>ce linea e Tema<br />

6.2.12 Tabella sinottica dei tratti per l’annotazione semantico-lessicale<br />

La tabella che segue riporta tutti gli attributi dell’annotazione semantico-lessicale,<br />

specificandone la tipologia <strong>di</strong> valori e la loro rilevanza nella descrizione dei <strong>di</strong>versi tipi <strong>di</strong> unità <strong>di</strong><br />

senso (ovvero, USS, USC e UST).<br />

Tratti USS USC UST<br />

alter= { <strong>di</strong>m, accr, <strong>di</strong>spr, vezz, sup, compar, alter }<br />

comm= stringa <strong>di</strong> commento (si veda la tabella nella<br />

sezione 6.2.11.2)<br />

X<br />

X X X<br />

dbref= { IWN-Gen, Eco-WN } X X<br />

fig= { metaf, meton, fig } X X<br />

lem= { lemma } X X X<br />

nota= { sn_in<strong>di</strong>st, sn_inc } X X<br />

np= { pers, grup, luogo, man, grup&luog, np } X X<br />

ns= { Sn, S1&S2, S1|S2, no_senso, no_lemma, no } X X<br />

pos= { parte del <strong>di</strong>scorso } X X<br />

tipolemma= { <strong>di</strong>al, neol } X X<br />

tipot= { semiotico, spettacolo, tipot }<br />

X<br />

tipousc= { i<strong>di</strong>oma, comp, vsup, np, tipousc }<br />

X<br />

6.3 Criteri <strong>di</strong> annotazione<br />

Nelle sezioni che seguono vengono forniti criteri guida per l’annotazione semantico-lessicale.<br />

Questi criteri sono stati testati ed integrati nella fase <strong>di</strong> verifica delle specifiche <strong>di</strong> annotazione e nel<br />

corso del processo <strong>di</strong> annotazione stesso.<br />

6.3.1 Alterati e aggettivi superlativi<br />

Con alterati ci riferiamo ai lemmi mo<strong>di</strong>ficati semanticamente con l’aggiunta <strong>di</strong> suffissi cosiddetti<br />

‘valutativi’ o ‘alterativi’ (Scalise, 1995). Sulla base del loro significato, i suffissi si possono<br />

<strong>di</strong>stinguere in:<br />

• <strong>di</strong>minutivo (-ino);<br />

• accrescitivo (-one);<br />

88


Co<strong>di</strong>ce linea e Tema<br />

• <strong>di</strong>spregiativo (-accio);<br />

• vezzeggiativo (-uccio, -etto).<br />

I suffissi alterativi possono essere utilizzati in modo cumulativo (es. passettino).<br />

Data la rilevanza semantica dell’alterazione e il fatto che spesso non c’è un esatto equivalente in<br />

altre lingue (es. tavolone = big table) appare opportuno marcarla in modo particolare a questo<br />

livello <strong>di</strong> annotazione, <strong>di</strong>stinguendo tra alterati lessicalizzati e alterati non lessicalizzati. I primi, che<br />

dovrebbero essere presenti nella risorsa lessicale <strong>di</strong> riferimento, ricevono il numero <strong>di</strong> senso<br />

corrispondente mentre i secon<strong>di</strong> sono ricondotti al lemma non alterato. In entrambi i casi gli alterati<br />

sono contrassegnati dall’attributo alter che in<strong>di</strong>ca la presenza del suffisso alterativo. Il tipo <strong>di</strong><br />

alterazione può essere specificato attraverso i seguenti possibili valori: “<strong>di</strong>m”, “accr”, “<strong>di</strong>sp”,<br />

“vezz”.<br />

Il caso della doppia alterazione, si marca con l’assegnazione <strong>di</strong> due valori successivi per or<strong>di</strong>ne<br />

<strong>di</strong> occorrenza (es. passettino -> alter=vezz,<strong>di</strong>m).<br />

La <strong>di</strong>stinzione tra alterato lessicalizzato e non lessicalizzato può essere fatta sulla base della sua<br />

presenza o meno in IWN-Gen/EcoWN o in altri <strong>di</strong>zionari dell’italiano assunti come punto <strong>di</strong><br />

riferimento.<br />

Diamo qui <strong>di</strong> seguito alcuni esempi tratti dal corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />

Tipi <strong>di</strong> alterazione non-lessicalizzato lessicalizzato<br />

(Dizionario <strong>di</strong> riferimento:<br />

Garzanti 1994)<br />

<strong>di</strong>m<br />

accr<br />

<strong>di</strong>sp<br />

vezz<br />

appartamentino<br />

bacino<br />

paesino<br />

Concertone<br />

filmetto<br />

gruppetto<br />

lavoretto<br />

pupazzetto<br />

vizietto<br />

<strong>di</strong>ttatorello<br />

cappellino<br />

finestrino<br />

palloncino<br />

colpaccio<br />

pozzetto<br />

Per quanto riguarda gli aggettivi, a livello semantico-lessicale appare opportuno segnalare la<br />

presenza del suffisso per la formazione del superlativo (es. important-issimo), sia per le mo<strong>di</strong>fiche<br />

che apporta al senso del lemma sia perché talvolta non esiste un equivalente in altre lingue (es.<br />

importantissimo = very important). Pertanto gli aggettivi sono ricondotti al lemma <strong>di</strong> base in IWN<br />

(es. importante) e ricevono la specificazione del tratto alter al quale viene assegnato il valore “sup”.<br />

Il valore “compar” è invece assegnato come valore <strong>di</strong> alter nel caso degli aggettivi comparativi.<br />

6.3.2 Nomi Propri<br />

L’annotazione dei nomi propri consiste nella specificazione dei seguenti tratti: dbref, lem, ns e<br />

np. Il numero <strong>di</strong> senso (ns) viene specificato solo nel caso in cui il nome proprio figuri nel lessico<br />

89


Co<strong>di</strong>ce linea e Tema<br />

generico o specialistico della risorsa lessicale <strong>di</strong> riferimento; negli altri casi il nome proprio non<br />

riceve alcuna specificazione relativa al numero <strong>di</strong> senso (ovvero a ns viene assegnato il valore<br />

“no”).<br />

Ai nomi propri viene sempre assegnato un tratto specifico (np) che ne descrive il tipo semantico<br />

corrispondente. Le seguenti classi semantiche sono previste come possibili valori dell’attributo np :<br />

- pers: per nomi propri <strong>di</strong> persone (es. Giulio_Andreotti);<br />

- grup: per nomi propri <strong>di</strong> gruppo <strong>di</strong> persone (es. Telecom, Monte<strong>di</strong>son);<br />

- luogo: per nomi propri <strong>di</strong> località (es. Milano);<br />

- man: per nomi propri <strong>di</strong> prodotti e manufatti in genere (es. Macintosh, Windows);<br />

- grup&luog: per i nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente<br />

intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano<br />

d’Inghilterra);<br />

- np: per tutti gli altri casi.<br />

Da notare che all’attributo np possono essere assegnati più valori (<strong>di</strong>sgiunti/congiunti) per i casi<br />

in cui non sia possibile operare una scelta. Tale tratto consente un facile recupero dal corpus<br />

annotato dei nomi propri per classi <strong>di</strong> referenti e ne rende uniforme il trattamento a livello <strong>di</strong><br />

annotazione semantico-lessicale in<strong>di</strong>pendentemente dalla loro presenza o meno nella risorsa<br />

lessicale <strong>di</strong> riferimento.<br />

Casi particolari:<br />

- i nomi propri che si riferiscono a regioni, nazioni, paesi, città in generale sono descritti come<br />

luoghi (np=luog);<br />

- i nomi propri in<strong>di</strong>canti montagne, fiumi, laghi ricevono una decrizione più generica (np=np)<br />

giacché non in<strong>di</strong>cano necessariamente un luogo (es. il Lago <strong>di</strong> Garda è il lago più grande<br />

d’Ítalia);<br />

- nei casi del tipo «re/ sovrano <strong>di</strong> ‘nome proprio geografico’» (es.: regina d’Inghilterra) a<br />

quest’ultimo è assegnato il valore “grup&luog” perché ragionevolmente in<strong>di</strong>ca il paese/nazione<br />

sia in senso <strong>di</strong> luogo che <strong>di</strong> organizzazione;<br />

- nei casi invece del tipo «via / piazza / palazzo + nome proprio» (es. via XXV aprile) si adotta<br />

il seguente metodo: ‘via’ e ‘piazza’ sono annotati separatamente e il nome proprio che segue è<br />

descritto in modo generico (come np=np). Per quanto riguarda palazzo, si <strong>di</strong>stinguono i casi in<br />

cui fa parte del nome proprio (es.: Palazzo <strong>di</strong> Giustizia, Palazzo Pitti, Palazzo Madama) da<br />

quelli in cui può essere annotato separatamente (es. il palazzo del Quirinale)<br />

6.3.3 Parole Straniere<br />

Le parole straniere sono <strong>di</strong>stinte in tre classi:<br />

1. quelle che sono entrate nell’uso corrente della lingua italiana (es. leader, import, export);<br />

90


Co<strong>di</strong>ce linea e Tema<br />

2. quelle che non sono entrate nell’uso corrente ma hanno una applicazione e <strong>di</strong>ffusione in<br />

ambito tecnico-specialistico (es. rating, tax, trend);<br />

3. quelle che non sono usate correntemente nella lingua italiana. Esempi dal corpus della<br />

<strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />

• imboccare nell’ 85 la via della «politique d’abord» ma quella <strong>di</strong> un’ integrazione..<br />

• degli ortolani) occorre fare dell’ «économie d’abord», abolire i controlli doganali..,<br />

• una maggioranza capace <strong>di</strong> decidere cosa vada mo<strong>di</strong>ficato d’abord nella «storia<br />

materiale»…<br />

Le parole appartenenti alla prima classe hanno maggiore probabilità <strong>di</strong> essere attestate nella<br />

risorsa lessicale <strong>di</strong> riferimento e dunque è possibile fare riferimento al numero <strong>di</strong> senso loro<br />

assegnato; in caso contrario, viene segnalata l’assenza del lemma.<br />

La seconda classe fa riferimento a partizioni specialistiche del lessico (ovvero relative a un dato<br />

dominio semantico); come nel caso precedente, se attestate nel lessico l’annotazione fa riferimento<br />

al numero <strong>di</strong> senso della partizione specialistica <strong>di</strong> IWN (ovvero EcoWN); in caso contrario, viene<br />

segnalata la loro assenza ai lessicografi della partizione specialistica per valutarne l’eventuale<br />

integrazione nel lessico. Per maggiori dettagli sull’annotazione della terminologia specialistica si<br />

rinvia alla sezione sulla terminologia (sezione 6.3.7).<br />

Il terzo tipo <strong>di</strong> parola straniera non è attestata nella risorsa lessicale <strong>di</strong> riferimento e rimane<br />

genericamente etichettata come parola straniera, e non riceve dunque l’assegnazione <strong>di</strong> alcun<br />

numero <strong>di</strong> senso.<br />

Anche se l’informazione relativa a ‘parola straniera’ è già inclusa nell’annotazione morfosintattica<br />

usata come input all’annotazione semantico-lessicale, a questo livello <strong>di</strong> annotazione tutte<br />

le parole straniere ricevono una marca specifica per facilitarne il recupero ai fini dell’annotazione<br />

(nel campo comm vengono specificati i valori PSTR/ p. str, si veda la tabella nella sezione<br />

6.2.11.2).<br />

6.3.4 Criteri <strong>di</strong> identificazione e <strong>di</strong> annotazione delle USC<br />

La categoria delle unità semanticamente complesse include espressioni polilessicali, ovvero<br />

espressioni i<strong>di</strong>omatiche più o meno composizionali, i composti (<strong>di</strong> cui parte sono <strong>di</strong> ambito tecnico<br />

specialistico) e le espressioni con verbo supporto.<br />

Dato che nella <strong>Treebank</strong> <strong>di</strong> SI-TAL l’annotazione semantico-lessicale è circoscritta alle classi<br />

dei sostantivi, dei verbi e degli aggettivi, <strong>di</strong> seguito vengono forniti criteri <strong>di</strong> identificazione e<br />

annotazione <strong>di</strong> USC la cui testa appartiene alle stesse categorie morfo-sintattiche. Quin<strong>di</strong> sono<br />

escluse dal processo <strong>di</strong> annotazione locuzioni preposizionali del tipo per conto <strong>di</strong> oppure locuzioni<br />

avverbiali del tipo in fretta e furia, che non vengono annotate né al livello dei singoli componenti né<br />

dell’intera sequenza.<br />

In quanto segue, dopo aver elencato le motivazioni che giustificano l’annotazione delle USC,<br />

forniremo criteri per la loro identificazione nel testo e conseguenti modalità <strong>di</strong> annotazione.<br />

6.3.4.1 Perché l’annotazione delle USC<br />

Elenchiamo qui <strong>di</strong> seguito alcune delle ragioni che giustificano l’annotazione delle USC.<br />

91


Co<strong>di</strong>ce linea e Tema<br />

La loro parziale o totale non composizionalità semantica fa sì che:<br />

1. il significato dell’intera sequenza può non essere ricavabile a partire dal significato dei singoli<br />

componenti lessicali: es. entrare (move) in possesso (stative possession) ≠ entrare in possesso<br />

(change possession);<br />

2. le restrizioni <strong>di</strong> selezione dell’intera sequenza possono essere molto specifiche: es. tagliare i<br />

ponti / il cordone ombelicale richiede un obliquo introdotto da con <strong>di</strong> tipo ‘umano / istituzione /<br />

gruppo umano’;<br />

3. i sinonimi (che compariranno nel corrispondente “synset” <strong>di</strong> IWN) possono essere molto<br />

specifici, <strong>di</strong>versi da quelli dei singoli componenti: tagliare la corda / scappare / fuggire;<br />

Dal punto <strong>di</strong> vista dell’utilizzo futuro del corpus annotato, si osserva che:<br />

1. nella prospettiva <strong>di</strong> uso del corpus nell’ambito <strong>di</strong> operazioni <strong>di</strong> recupero <strong>di</strong> informazione (IR),<br />

l’annotazione delle unità semanticamente complesse può rendere più corrette e significative le<br />

informazioni estratte: es. una ricerca che ha come oggetto il recupero <strong>di</strong> documenti riguardanti<br />

l’arredamento, deve poter escludere contesti del tipo organizzare una tavola rotonda in quanto<br />

non rilevanti rispetto all’interrogazione;<br />

2. nella prospettiva <strong>di</strong> uso del corpus nell’ambito della traduzione automatica (MT) può essere<br />

utile l’identificazione <strong>di</strong> unità semanticamente complesse che hanno in molti casi equivalenti in<br />

altre lingue ma, talvolta, con variazioni sia strutturali sia lessicali (es. toccare ferro = toucher<br />

du bois);<br />

3. nella prospettiva <strong>di</strong> creazione o estensione <strong>di</strong> lessici computazionali può essere utile consentire<br />

l’identificazione <strong>di</strong> queste espressioni e lo stu<strong>di</strong>o del grado <strong>di</strong> variabilità e morfologica e<br />

sintattica che le caratterizzano (es. possibilità <strong>di</strong> inserire mo<strong>di</strong>ficatori, ecc.).<br />

Infine dal punto <strong>di</strong> vista pratico, si nota che:<br />

1. talvolta appare più <strong>di</strong>fficile annotare le singole unità lessicali che l’intera sequenza (es ferro da<br />

stiro/ calce viva/ a chiare lettere/ romanzo giallo). L’annotazione delle singole componenti <strong>di</strong><br />

una espressione polilessicale richiederebbe una interpretazione del senso dei singoli componenti<br />

e del legame che intercorre tra loro che spesso appare totalmente arbitraria. Si pensi inoltre<br />

all’annotazione delle espressioni con verbo supporto, dove il contributo semantico del verbo<br />

supporto è, in realtà, limitato (“leggero”): es. fare paura.<br />

6.3.4.2 Problemi nell’identificazione ed interpretazione delle USC<br />

L’identificazione e interpretazione delle USC può risultare <strong>di</strong>fficile a causa dell’assenza <strong>di</strong> criteri<br />

<strong>di</strong> identificazione certi e univoci. I criteri forniti dalla letteratura che mirano a verificare il grado <strong>di</strong><br />

fissità sintattica e semantica <strong>di</strong> queste espressioni non sempre sono applicabili. Anche le espressioni<br />

i<strong>di</strong>omatiche che non sembrano decisamente soggette a variazioni talvolta sono attestate nel corpus<br />

in <strong>di</strong>verse varianti (“it has more recently been pointed out that i<strong>di</strong>oms in use are prone to massive<br />

variation”, Sinclair, 1996): es. tagliare le ultime ali a un paese.<br />

Il riconoscimento e l’interpretazione delle USC rimane un punto problematico almeno in alcuni<br />

casi e per molti aspetti soggettivo. Per questa ragione, appare opportuno ridurre il margine <strong>di</strong><br />

soggettività nelle scelte dell’annotatore e giungere a decisioni sicure e non controverse.<br />

92


Co<strong>di</strong>ce linea e Tema<br />

6.3.4.2.1 Identificazione degli elementi costitutivi delle USC<br />

Da un punto <strong>di</strong> vista pratico, cioè della loro annotazione a livello semantico-lessicale, le USC<br />

pongono soprattutto due problemi:<br />

1. quali elementi devono essere considerati parte dell’espressione semanticamente complessa?<br />

In altri termini, dove incomincia e finisce l’espressione? Per esempio, essere la chiave <strong>di</strong><br />

volta o chiave <strong>di</strong> volta o chiave volta o essere chiave volta ecc.<br />

2. come gestire i casi <strong>di</strong> <strong>di</strong>scontinuità delle USC?<br />

Esaminiamo in dettaglio i due punti.<br />

1. le USC sono caratterizzate da una certa “fissità” lessicale, nel senso che i lemmi che le<br />

compongono sono fissi o quantomeno commutabili con pochi altri (si pensi ad esempio alle<br />

espressioni con verbo supporto). Per questa ragione appare opportuno considerare parte<br />

dell’espressione tutti gli elementi invariabili o limitatamente variabili, incluse le parole<br />

grammaticali che tuttavia sono fondamentali per la comprensione dell’espressione. Inoltre<br />

l’esclusione del verbo rende talvolta non significativa l’intera sequenza (es. la chiave <strong>di</strong><br />

volta);<br />

2. per espressione <strong>di</strong>scontinua si intende il caso in cui i suoi singoli componenti non sono<br />

a<strong>di</strong>acenti. Le espressioni che sono soggette a <strong>di</strong>scontinuità o inversione sono essenzialmente<br />

quelle che includono il verbo. Si possono avere i seguenti casi <strong>di</strong> <strong>di</strong>scontinuità illustrati con<br />

esempi tratti dal corpus <strong>di</strong> SI-TAL:<br />

1. inserimento <strong>di</strong> un mo<strong>di</strong>ficatore dell’intera frase:<br />

tenere il più possibile sulla corda qualcuno<br />

2. inserimento <strong>di</strong> un pronome e comunque <strong>di</strong> un elemento sottocategorizzato<br />

dall’espressione stessa:<br />

mettere tutto per iscritto<br />

metterne a punto<br />

3. inserimento <strong>di</strong> un mo<strong>di</strong>ficatore <strong>di</strong> un componente dell’espressione semanticamente<br />

complessa:<br />

fare qualche minuto <strong>di</strong> esercizi<br />

fare ben pochi passi avanti<br />

avere maggiore peso<br />

mettere i loro puntini sulla i<br />

tenere in maggiore considerazione<br />

4. inversione e <strong>di</strong>scontinuità:<br />

Traguar<strong>di</strong> ambiziosi, insomma, che la Consulta delle professioni non regolamentate,<br />

inse<strong>di</strong>atasi ieri a Villa Lubin, è comunque convinta <strong>di</strong> riuscire a tagliare<br />

Nei casi 1. e 2. l’elemento inserito (mo<strong>di</strong>ficatore della frase o pronome) è esterno all’espressione<br />

semanticamente complessa. Es.:<br />

93


Co<strong>di</strong>ce linea e Tema<br />

mettere tutto per iscritto<br />

dove le parole evidenziate in grassetto sono da considerarsi gli elementi costituenti la USC in<br />

corso <strong>di</strong> definizione: in questo caso, USC = mettere per iscritto. Il lemma ad esso associato sarà la<br />

forma standard <strong>di</strong> riferimento selezionata, ad esempio mettere_per_iscritto.<br />

Nel caso 3., eventuali mo<strong>di</strong>ficatori dei componenti dell’espressione (che dovrebbero essere tanto<br />

più rari quanto più l’espressione è semanticamente non composizionale) sono considerati parte<br />

dell’espressione stessa come esemplificato <strong>di</strong> seguito:<br />

Eppure i vari gruppi si sono affrettati a mettere i loro “puntini sulle i” del documento…<br />

dove le parole mettere i loro puntini sulle i sono da considerarsi come facenti parte della USC. In<br />

ogni caso, il lemma attribuito a questa occorrenza non includerà gli eventuali mo<strong>di</strong>ficatori, ma farà<br />

riferimento alla forma che è stata selezionata come standard (per esempio, nel caso precedente<br />

mettere_i_puntini_sulle_i); in questo modo si creano i presupposti per il recupero <strong>di</strong> tutte le varianti<br />

<strong>di</strong> una stessa USC attestate nel corpus annotato (ad esempio con e senza mo<strong>di</strong>ficatori).<br />

Nel quarto caso, quello dell’inversione, i costituenti della USC sono marcati nel testo come segue:<br />

Traguar<strong>di</strong> ambiziosi, insomma, che la Consulta delle professioni non regolamentate, inse<strong>di</strong>atasi<br />

ieri a Villa Lubin, è comunque convinta <strong>di</strong> riuscire a tagliare<br />

Al livello del lemma, invece, l’or<strong>di</strong>ne standard della sequenza è ricostruito; quin<strong>di</strong> nel caso<br />

precedente il lemma sarà presumibilmente tagliare_traguardo.<br />

Si noti che il lemma dell’espressione può contenere eventuali preposizioni, articoli ecc. che<br />

fanno parte dell’espressione stessa (es. essere la chiave <strong>di</strong> volta).<br />

6.3.4.3 Espressioni i<strong>di</strong>omatiche e composti<br />

Con ‘espressione i<strong>di</strong>omatica’ inten<strong>di</strong>amo tutte le espressioni polilessicali (Casadei, 1996:13) che<br />

da un punto <strong>di</strong> vista sintattico e soprattutto lessicale sono caratterizzate da una certa fissità,<br />

contrariamente alla frase libera in cui ogni posizione è commutabile con qualunque elemento che<br />

abbia le caratteristiche categoriali e semantiche (restrizioni <strong>di</strong> selezione) richieste.<br />

Il loro significato non è composizionale (es. tagliare la testa al toro) o lo è solo parzialmente (es.<br />

mettere a ferro e fuoco, mettere piede) e comunque si è fissato, cristallizzato nel tempo.<br />

La fissità lessicale (o limitata variabilità) e la parziale o totale non composizionalità semantica<br />

sono una caratteristica anche dei composti.<br />

Diamo qui <strong>di</strong> seguito alcuni esempi tratti dal corpus <strong>di</strong> SI-TAL che illustrano la tipologia <strong>di</strong><br />

espressioni che ci troveremo ad annotare e sono esemplificative dei livelli <strong>di</strong>versi <strong>di</strong><br />

composizionalità semantica:<br />

Espressioni I<strong>di</strong>omatiche<br />

essere la chiave <strong>di</strong> volta<br />

mettere troppa carne al fuoco<br />

mettere a ferro e fuoco<br />

soffiare sul fuoco<br />

gettare benzina sul fuoco<br />

Composti<br />

agente segreto<br />

agente <strong>di</strong> frontiera<br />

braccio <strong>di</strong> ferro<br />

conflitto a fuoco<br />

arma da fuoco<br />

94


Co<strong>di</strong>ce linea e Tema<br />

Espressioni I<strong>di</strong>omatiche<br />

mettere via<br />

andare in gol<br />

lasciare andare<br />

avere le carte in regola<br />

fare da pendant<br />

fare da cuscinetto<br />

fare da contrappeso<br />

avere un bel da fare<br />

darsi da fare<br />

fare a meno <strong>di</strong> (qualcosa)<br />

fare il gioco <strong>di</strong> (qualcuno)<br />

tagliare il respiro (mozzare il fiato)<br />

tenere buono (qualcuno)<br />

tenere d’occhio (qualcuno)<br />

mettere piede<br />

mettere in pericolo<br />

andare in onda<br />

andare d’accordo<br />

essere nel giusto<br />

essere al <strong>di</strong> sopra <strong>di</strong> ogni sospetto<br />

essere sopra le parti<br />

Composti<br />

lingua <strong>di</strong> fuoco<br />

vigile del fuoco<br />

6.3.4.3.1 Criteri <strong>di</strong> identificazione delle espressioni i<strong>di</strong>omatiche e dei composti<br />

In questa sezione forniamo una batteria <strong>di</strong> test per l’identificazione delle espressioni i<strong>di</strong>omatiche<br />

e dei composti. Va tuttavia premesso che non sempre tali test sono affidabili e applicabili poiché la<br />

struttura interna e il grado <strong>di</strong> non composizionalità semantica delle espressioni semanticamente<br />

complesse è molto variabile.<br />

Va inoltre ricordato che talvolta i criteri che possono guidare il riconoscimento <strong>di</strong> una USC<br />

possono essere <strong>di</strong> natura più generale e non semplicemente dei test <strong>di</strong> tipo sintattico/semantico<br />

(specialmente per quanto riguarda il corpus specialistico). Per esempio, la frequenza accertata <strong>di</strong><br />

una certa sequenza (es. stato membro) o l’esistenza e l’utilizzo contemporaneo <strong>di</strong> un acronimo e <strong>di</strong><br />

una forma sciolta per lo stesso referente (es. consiglio <strong>di</strong> amministrazione / CDA) possono indurre<br />

all’identificazione <strong>di</strong> USC.<br />

I test elencati qui <strong>di</strong> seguito, che sono stati ricavati dalla letteratura corrente (Danlos, 1981, 1988,<br />

Ten Hacken 1991, Gross, 1985, 1986, 1988) e adattati all’italiano, sono <strong>di</strong>stinti in due gruppi: 1)<br />

quelli per sequenze senza verbo (trattati nella sezione 6.3.4.3.1.1) e 2) quelli per sequenze con verbo<br />

(trattati nella sezione 6.3.4.3.1.2).<br />

6.3.4.3.1.1 Sequenze senza verbo<br />

La struttura sintattica interna dei composti può essere molto varia: sostantivo-preposizionesostantivo<br />

(S E S), sostantivo-sostantivo (S S), aggettivo-sostantivo (A S), ecc. I test variano a<br />

seconda della struttura interna, come esemplificato in quanto segue.<br />

• Costruzione Pre<strong>di</strong>cativa: la costruzione pre<strong>di</strong>cativa è possibile solo con sequenze or<strong>di</strong>narie <strong>di</strong><br />

sostantivo-aggettivo (S A) ma non con composti che hanno questa struttura. Es.:<br />

95


Co<strong>di</strong>ce linea e Tema<br />

tavola rotonda (=conferenza, incontro) > *la tavola è rotonda<br />

• Nominalizzazione: la nominalizzazione non è possibile con i composti aventi la struttura S A.<br />

Es.:<br />

*la roton<strong>di</strong>tà della tavola<br />

• Mo<strong>di</strong>ficazione: la mo<strong>di</strong>ficazione tramite l’inserimento <strong>di</strong> avverbi e le costruzioni superlative e<br />

comparative non sono possibili con i composti. Es.:<br />

ferro da stiro > *un ferro nuovo da stiro<br />

tavola rotonda (=conferenza, incontro) > *la tavola più rotonda,<br />

*una tavola perfettamente rotonda<br />

• Coor<strong>di</strong>nazione: l’aggettivo che fa parte <strong>di</strong> una parola composta non può essere coor<strong>di</strong>nato con<br />

altri aggettivi anche se ciò è possibile con sequenze or<strong>di</strong>narie. Es.:<br />

* la tavola rotonda e larga<br />

• Omissione: l’aggettivo <strong>di</strong> un nome composto è obbligatorio (pertanto non può essere né<br />

sostituito né omesso) e talvolta può essere usato da solo. Es.:<br />

*tavola circolare<br />

cronaca rosa/ nera/ *gialla<br />

*ho organizzato una tavola (rotonda)<br />

ho letto un (romanzo) giallo<br />

A questo primo insieme <strong>di</strong> test si affiancano dei criteri più deboli, riportati <strong>di</strong> seguito:<br />

• Flessione: va ricordato che l’esistenza <strong>di</strong> un composto ci può essere segnalata da irregolarità<br />

morfo-sintattiche (per esempio, a livello della flessione). Infatti, mentre alcuni composti<br />

presentano regolarmente sia la forma singolare sia quella plurale (es. tavole rotonde) altri hanno<br />

solo una forma al plurale (effetti speciali) o al singolare (la mano nera).<br />

• Restrizioni <strong>di</strong> co-occorrenza lessicale: alcuni composti sono caratterizzati da una certa<br />

variabilità lessicale che tuttavia rimane sempre limitata. Infatti solo un aggettivo o un ristretto<br />

numero e tipo <strong>di</strong> aggettivi si combina con un nome per formare un composto (es. alta/bassa<br />

marea).<br />

6.3.4.3.1.2 Sequenze con il verbo<br />

• Inserzione: non è ammesso l’inserimento <strong>di</strong> mo<strong>di</strong>ficatori dei singoli componenti lessicali <strong>di</strong> una<br />

espressione i<strong>di</strong>omatica, mentre è normalmente consentito l’inserimento <strong>di</strong> mo<strong>di</strong>ficatori<br />

dell’intera sequenza. Es.:<br />

*tagliare la lunga corda<br />

tagliare velocemente la corda<br />

• Estrazione: l’estrazione <strong>di</strong> un componente lessicale <strong>di</strong> una espressione i<strong>di</strong>omatica per mezzo <strong>di</strong><br />

particolari strutture sintattiche non è solitamente possibile. Es.:<br />

- costruzione passiva: *la corda è stata tagliata da Leo<br />

96


Co<strong>di</strong>ce linea e Tema<br />

- “clefting”: *è la corda che è stata tagliata da Leo<br />

- topicalizzazione: *LA CORDA è stata tagliata da Leo<br />

- costruzione relativa: *la corda che è stata tagliata da Leo<br />

• Pronominalizzazione: la sostituzione <strong>di</strong> uno o più elementi <strong>di</strong> una espressione i<strong>di</strong>omatica con<br />

un pronome non è solitamente consentita. Es.:<br />

ha tagliato la corda dal carcere > *l’ha tagliata dal carcere<br />

• Mo<strong>di</strong>ficazione: i componenti lessicali <strong>di</strong> una espressione i<strong>di</strong>omatica non possono essere<br />

solitamente flessi o sostituiti. Es.:<br />

*tagliare le corde/la fune<br />

Le espressioni i<strong>di</strong>omatiche e i composti sono annotate come USC la cui descrizione include<br />

obbligatoriamente i tratti lem e tipousc: quest’ultimo permette <strong>di</strong> <strong>di</strong>stinguere tra espressioni<br />

i<strong>di</strong>omatiche (contrassegnate dal valore “i<strong>di</strong>oma”) e composti (marcati dal valore “comp”). Nel caso<br />

in cui l’espressione i<strong>di</strong>omatica o il composto siano inclusi nella risorsa lessicale <strong>di</strong> riferimento,<br />

l’annotazione include anche la specificazione dei tratti dbref e ns.<br />

6.3.4.4 Espressioni con verbo supporto<br />

Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL le espressioni con verbo supporto (da qui in poi VSUP) sono annotate<br />

in termini <strong>di</strong> USC. Una USC <strong>di</strong> tipo VSUP è caratterizzata dalle seguenti proprietà:<br />

• l’apporto semantico del verbo cosiddetto supporto al significato dell’espressione è ridotto,<br />

controbilanciato dal ruolo fondamentale giocato dal nome o sequenza che lo segue: es. dare<br />

aiuto (aiutare), fare paragoni (paragonare) fare affermazioni (affermare) ecc.; (Da notare che<br />

una sequenza come mettere piede è da considerarsi una espressione i<strong>di</strong>omatica vera e propria<br />

perchè piede non conferisce un significato particolare a mettere);<br />

• il verbo serve soprattutto per convogliare i tratti grammaticali del tipo: tempo, aspetto, modo,<br />

persona ecc.;<br />

• uno stesso nome si può combinare con più VSUP (un numero comunque ristretto e fisso) che<br />

fungono da varianti aspettuali (es. essere/mettersi in viaggio);<br />

• i verbi che in alcune costruzioni possono avere la funzione <strong>di</strong> ‘supporto’ a livello semantico<br />

sono un numero ristretto, essere, avere, fare e pochi altri che spesso sono varianti aspettuali dei<br />

primi (es. dare, prendere, venire, mettere, entrare, ecc.).<br />

Le strutture con VSUP sono notoriamente molto varie. Alcuni (ve<strong>di</strong> Renzi, 1995) annoverano tra<br />

le espressioni con VSUP anche frasi del tipo Leo è un ven<strong>di</strong>tore che in<strong>di</strong>ca una con<strong>di</strong>zione<br />

permanente rispetto al verbo (Leo vende). Tuttavia in questa sede appare opportuno restringere la<br />

nozione <strong>di</strong> espressione con VSUP a quelle sequenze che presentano una certa fissità sintattica e una<br />

limitata variabilità lessicale. Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL verranno annotate come strutture con VSUP<br />

i seguenti casi:<br />

97


Co<strong>di</strong>ce linea e Tema<br />

1. strutture con VSUP che sono una variante della forma verbale 1 :<br />

essere in viaggio > viaggiare<br />

essere alla ricerca > ricercare<br />

essere in contrad<strong>di</strong>zione > contrad<strong>di</strong>re<br />

fare paura > impaurire<br />

mettere paura > impaurire<br />

dare una lavata > lavare<br />

avere in o<strong>di</strong>o > o<strong>di</strong>are<br />

2. strutture con VSUP che sono una variante della forma aggettivale:<br />

essere nell’incertezza > incerto<br />

essere <strong>di</strong> notevole coraggio > coraggioso<br />

essere in agitazione > agitato<br />

essere in dubbio > dubbioso<br />

Questi due tipi <strong>di</strong> espressioni con VSUP presentano le seguenti caratteristiche:<br />

• le varianti della forma verbale si presentano come:<br />

VSUP + S<br />

VSUP + E (in, <strong>di</strong>, da, ecc.) + S<br />

dove il nome (S) è tipicamente astratto (es. o<strong>di</strong>o) e/o deverbale (es. viaggio)<br />

• le varianti della forma aggettivale si presentano come:<br />

VSUP + E (in, <strong>di</strong>, ecc.) + S<br />

dove il nome (S) è <strong>di</strong> tipo astratto e collegato ad un aggettivo (es. coraggio).<br />

• entrambe le espressioni con VSUP possono avere una loro specifica sottocategorizzazione e<br />

specifiche restrizioni <strong>di</strong> selezione. Ciò costituisce sia una ulteriore motivazione in favore della<br />

loro annotazione a livello semantico-lessicale che un criterio per annotare almeno i casi più<br />

interessanti da un punto <strong>di</strong> vista linguistico. Es.:<br />

essere in viaggio per la Mecca/ *viaggiare per la Mecca<br />

essere in contrad<strong>di</strong>zione con i fatti/ *contrad<strong>di</strong>re con i fatti<br />

fare affidamento su qualcuno/ *affidarsi su qualcuno<br />

Dal punto <strong>di</strong> vista delle applicazioni del corpus annotato, appare utile <strong>di</strong>fferenziare queste<br />

espressioni dalle altre per consentirne l’eventuale recupero. Va ricordato che al pari degli altri tipi <strong>di</strong><br />

espressioni i<strong>di</strong>omatiche, quelle a con VSUP non hanno sempre un esatto equivalente in altre lingue<br />

come appare dai seguenti esempi presi da Ruimy e Corazzari (1991):<br />

1 In IWN, queste espressioni con VSUP saranno incluse nel synset del verbo <strong>di</strong> cui esse costituiscono una variante.<br />

98


Co<strong>di</strong>ce linea e Tema<br />

essere <strong>di</strong> poche parole= etre peu causant<br />

essere nei guai=avoir des ennuis<br />

essere <strong>di</strong> garanzia=servir de garantie<br />

essere in aumento=augmenter<br />

Diamo qui <strong>di</strong> seguito alcuni esempi estratti dal corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />

VSUP S E + S<br />

fare<br />

fuoco; affermazioni;<br />

paragoni; complimenti;<br />

esempi; il confronto; la<br />

guar<strong>di</strong>a; progressi;<br />

affidamento; concessioni;<br />

prognostici; previsioni;<br />

programmi; verifica;<br />

pulizia; esempi; pipì;<br />

esercizi; cura; guerra<br />

mettere paura in scena; in <strong>di</strong>scussione; in<br />

posa<br />

dare<br />

fuoco<br />

essere<br />

a conoscenza; in possesso<br />

Le espressioni con VSUP sono trattate al pari delle espressioni i<strong>di</strong>omatiche come un’unica unità<br />

<strong>di</strong> senso. Per consentire l’eventuale recupero automatico <strong>di</strong> queste espressioni appare sufficiente<br />

assegnare all’elemento USC il tratto tipousc al quale viene assegnato il valore “vsup” (tipo <strong>di</strong><br />

USC=con verbo supporto).<br />

L’annotazione delle espressioni con VSUP avviene me<strong>di</strong>ante l’identificazione <strong>di</strong> un elemento <strong>di</strong><br />

tipo USC descritto dai seguenti tratti: lem e tipousc (al quale viene assegnato il valore “vsup”). Nel<br />

caso in cui l’espressione sia inclusa nella risorsa lessicale <strong>di</strong> riferimento, l’annotazione include<br />

anche la specificazione dei tratti dbref e ns.<br />

6.3.5 Criteri <strong>di</strong> annotazione delle UST<br />

L’annotazione dei titoli in generale (<strong>di</strong> spettacoli, giornali, libri ecc.) è necessaria a livello<br />

semantico-lessicale perché essi sono espressioni che hanno un comportamento particolare rispetto al<br />

contesto in cui figurano. I titoli si comportano come (micro)testi in<strong>di</strong>pendenti all’interno <strong>di</strong> un altro<br />

testo. La loro annotazione è auspicabile almeno per le seguenti ragioni:<br />

- in vista del recupero <strong>di</strong> informazioni da testi, l’annotazione dei titoli rende più atten<strong>di</strong>bili le<br />

informazioni estratte; ad esempio, in una indagine su fiori e piante, non verrebbe estratto il<br />

contesto pubblicare ‘I fiori del male’;<br />

- in vista <strong>di</strong> un eventuale uso del corpus annotato in traduzione automatica, appare evidente che i<br />

titoli devono essere <strong>di</strong>fferenziati sia perchè talvolta essi non sono tradotti con un esatto<br />

99


Co<strong>di</strong>ce linea e Tema<br />

equivalente sia perchè talvolta essi sono lasciati invariati, cioè come appaiono nella lingua<br />

sorgente.<br />

Va, infine, sottolineato che in un corpus giornalistico, i titoli occorrono molto frequentemente.<br />

L’elemento UST (unità semantica <strong>di</strong> tipo titolo) serve per marcare i titoli. Esso può riferirsi ad<br />

una singola parola o a più parole a<strong>di</strong>acenti. I titoli, quando sono composti da più parole,<br />

con<strong>di</strong>vidono alcune caratteristiche delle USC perché si comportano sintatticamente e<br />

semanticamente come una unica unità.<br />

Tuttavia al contrario delle USC, trattate in precedenza, le UST sono sempre composizionali (anche<br />

se possono includere a loro volta delle USC), cioè i singoli componenti mantengono il loro<br />

significato proprio, e sono sempre continue. Ciò implica che ricevono una doppia annotazione: una<br />

a livello dei singoli componenti e un’altra a livello dell’intera unità UST.<br />

L’attributo tipot consente <strong>di</strong> <strong>di</strong>stinguere i nomi <strong>di</strong> spettacoli/film (il valore è “spettacolo”) da<br />

quelli <strong>di</strong> testi scritti, giornali, libri ecc. (il valore è “semiotico”). Tale <strong>di</strong>stinzione è giustificata dalle<br />

seguenti ragioni:<br />

- titoli <strong>di</strong>versi co-occorrono con lemmi semanticamente <strong>di</strong>versi (es. leggere/pubblicare/scrivere<br />

un tipot=semiotico // guardare, registrare un tipot=spettacolo);<br />

- da un punto <strong>di</strong> vista dei tipi/concetti semantici, ci può essere una <strong>di</strong>fferenziazione dei due tipi <strong>di</strong><br />

referenti del titolo (es. “artefatto semiotico / informazione” // “opera d’arte”);<br />

- in precedenti esperienze <strong>di</strong> annotazione del corpus i titoli <strong>di</strong> testi scritti o spettacoli sono risultati<br />

i più frequenti (si veda Corazzari et al., 1999).<br />

Il valore “indef”, invece, consente all’annotatore che non deve/può avere necessariamente una<br />

conoscenza enciclope<strong>di</strong>ca <strong>di</strong> lasciare sottospecificato questo attributo.<br />

L’elemento UST è descritto dagli attributi: lem; ns (il valore assegnato al numero <strong>di</strong> senso della<br />

UST è ovviamente ‘no’ poiché essi non sono fanno parte della risorsa lessicale <strong>di</strong> riferimento); tipot.<br />

6.3.6 Gli Usi Figurati<br />

Per usi figurati si intendono gli usi metaforici, metonimici ecc., a livello sia <strong>di</strong> USS sia <strong>di</strong> USC. In<br />

quanto segue <strong>di</strong>amo criteri per l’in<strong>di</strong>viduazione e l’annotazione <strong>di</strong> usi figurati.<br />

6.3.6.1 La Metafora<br />

La metafora come fatto linguistico è interpretata nella letteratura principalmente in tre mo<strong>di</strong><br />

<strong>di</strong>versi. La metafora è:<br />

- una anomalia: cioè una violazione delle restrizioni <strong>di</strong> selezione (ve<strong>di</strong> Casadei 1996, Fass, 1991)<br />

- una comparazione: “la metafora è il trasferimento a un termine (detto “topic”, ad esempio<br />

Mario) <strong>di</strong> un nome appartenente a un altro (detto “vehicle”, ad esempio leone) in base a un<br />

elemento <strong>di</strong> somiglianza tra i due (detto “ground”, cioè il coraggio)” (Casadei 1996; si veda<br />

anche Fass, 1991)<br />

100


Co<strong>di</strong>ce linea e Tema<br />

- una interazione: si pensa che “la metafora proietti sul “topic” non una singola proprietà ma un<br />

insieme <strong>di</strong> implicazioni convenzionalmente associate al “vehicle” (conoscenze, credenze, luoghi<br />

comuni sul “vehicle”), i cui contenuti sono selezionati anche dallo specifico “topic” “ (Casadei<br />

1996; si veda anche Fass, 1991).<br />

Da un punto <strong>di</strong> vista operativo, appare fondamentale la <strong>di</strong>stinzione tra metafora lessicalizzata e<br />

non lessicalizzata. Tale <strong>di</strong>stinzione può essere operata sia rispetto alla risorsa lessicale <strong>di</strong><br />

riferimento sia ad altri <strong>di</strong>zionari della lingua italiana.<br />

Le metafore lessicalizzate ricevono il numero del senso corrispondente in IWN e il tratto<br />

fig=metaf che le identifica come metafore (es. la chiave del problema, tavolo delle trattative,<br />

volano battute).<br />

Le metafore non lessicalizzate ricevono un numero <strong>di</strong> senso che rinvia al loro significato letterale<br />

ed il tratto fig=metaf per marcare l’uso metaforico (es. Zepe sotto il fuoco <strong>di</strong> Mla<strong>di</strong>c).<br />

Da un punto <strong>di</strong> vista applicativo, le prime non danno luogo a violazione delle restrizioni <strong>di</strong><br />

selezione perché sono integrate nel lessico e in termini <strong>di</strong> tipi/concetti semantici sono descritte in<br />

modo appropriato (es. non capisco la molla (tipo/concetto semantico=causa e non artefatto) <strong>di</strong><br />

una tale violenza) mentre le seconde sì. Tuttavia la presenza del tratto fig=metaf consente <strong>di</strong><br />

sottolineare l’uso particolare del lemma.<br />

Va da sé che può rivelarsi necessario integrare il lessico <strong>di</strong> riferimento con usi metaforici che<br />

ricorrono frequentemente, ad esempio, nei testi giornalistici anche se non sono forse ancora attestati<br />

nei <strong>di</strong>zionari correnti (es. ver<strong>di</strong> per in<strong>di</strong>care gli ecologisti).<br />

6.3.6.2 La Metonimia<br />

La metonimia implica l’uso <strong>di</strong> una entità per riferirsi ad un’altra ad essa collegata (Fass,1991).<br />

Numerosi tentativi sono stati fatti <strong>di</strong> in<strong>di</strong>viduare e classificare tipi <strong>di</strong>versi <strong>di</strong> metonimie. I tipi più<br />

frequenti sembrano essere quelli che in<strong>di</strong>cano:<br />

- la parte per il tutto (l’insieme);<br />

- il contenitore per il contenuto;<br />

- il produttore per il prodotto;<br />

- l’oggetto usato per chi lo usa;<br />

- la causa per il risultato;<br />

- ecc.<br />

La metonimia, al pari della metafora, è caratterizzata da una violazione delle restrizioni <strong>di</strong><br />

selezione ma si <strong>di</strong>fferenzia da essa per le seguenti ragioni (Fass, 1991) 2 :<br />

2 La <strong>di</strong>stinzione tra metafora e metonimia è un punto controverso. Per molti l’una equivale all’altra e viceversa<br />

(Fass, 1991).<br />

101


Co<strong>di</strong>ce linea e Tema<br />

1. la metonimia è una relazione <strong>di</strong> contiguità (l’essere connesso a qualcosa) mentre la metafora è<br />

una relazione <strong>di</strong> similitu<strong>di</strong>ne (l’essere come…);<br />

2. “la metafora è principalmente una maniera <strong>di</strong> concepire una cosa in termini <strong>di</strong> un’altra e la sua<br />

funzione principale è la comprensione, mentre la metonimia ha principalmente una funzione<br />

referenziale, cioè, permette <strong>di</strong> usare una entità al posto <strong>di</strong> un’altra, pertanto essa ha un ruolo <strong>di</strong><br />

comprensione perché si focalizza su certi aspetti <strong>di</strong> ciò a cui ci si riferisce” (traduzione da Fass,<br />

1991).<br />

Analogamente al caso della metafora, le metonimie lessicalizzate vengono annotate me<strong>di</strong>ante<br />

l’assegnazione del numero <strong>di</strong> senso nella risorsa lessicale <strong>di</strong> riferimento e l’assegnazione del valore<br />

“meton” al tratto fig. Le metonimie non lessicalizzate (es. scende la pace sulle rotaie) ricevono<br />

un’assegnazione <strong>di</strong> senso che rinvia al loro significato letterale, mentre – <strong>di</strong> nuovo - al tratto fig<br />

viene assegnato il valore “meton”.<br />

6.3.7 Terminologia<br />

Per “terminologia” s’intende “il complesso dei termini, delle locuzioni, del frasario proprio <strong>di</strong><br />

una scienza, <strong>di</strong> un’arte o <strong>di</strong> un particolare settore tecnico o ambito sociale” (Palazzi-Folena,<br />

Dizionario della lingua italiana, 1995). Nel caso specifico del dominio finanziario, proprio della<br />

parte specializzata del corpus <strong>di</strong> SI-TAL, la terminologia si riconduce in buona parte a:<br />

• termini stranieri<br />

Nell’ambito <strong>di</strong> corpora a carattere finanziario si riscontra un uso piuttosto esteso <strong>di</strong> termini<br />

stranieri, principalmente inglesi. Si assume infatti che per molte azioni ed eventi del mondo<br />

economico valga un gergo internazionale poiché l’economia è intesa in senso mon<strong>di</strong>ale e la<br />

lingua inglese rappresenta la lingua comune d’interscambio. Nell’insieme <strong>di</strong> termini stranieri<br />

presenti nel corpus si <strong>di</strong>stinguono quelli ormai <strong>di</strong>venuti d’uso comune (es. leader, import,<br />

export, ...), che come tali sono riportati sui <strong>di</strong>zionari della lingua italiana, e quelli, usati<br />

magari con una certa frequenza, ma più specifici del dominio (es. rating, tax, trend,...) che<br />

non sono stati ancora inseriti nei <strong>di</strong>zionari.<br />

• espressioni polilessicali<br />

Si tratta <strong>di</strong> espressioni tipicamente composte da 2-3 parole per in<strong>di</strong>care oggetti, fatti, eventi del<br />

mondo finanziario (es. consiglio <strong>di</strong> revisione, quota azionaria, prestito obbligazionario, ...).<br />

• sigle o acronimi<br />

Sigle e acronimi ricorrono con una certa frequenza all’interno del corpus. L’uso <strong>di</strong> questi avviene<br />

principalmente in sostituzione delle espressioni complesse citate sopra (es. cda in luogo <strong>di</strong><br />

consiglio <strong>di</strong> amministrazione). Le ragioni <strong>di</strong> tale uso sono da ricercarsi in primo luogo nella<br />

como<strong>di</strong>tà <strong>di</strong> una forma abbreviata che evita la pesantezza dell’intera espressione complessa.<br />

In secondo luogo, tale uso è dettato dall’adozione <strong>di</strong> un gergo che si suppone essere noto (es.<br />

opa, pil, bot), almeno a chi opera in quel campo.<br />

Per l’annotazione <strong>di</strong> sigle e acronimi si deve far riferimento al numero <strong>di</strong> senso associato<br />

all’espressione polilessicale ad essi corrispondente nella risorsa lessicale <strong>di</strong> riferimento. La<br />

presenza <strong>di</strong> svariate forme ad in<strong>di</strong>care la stessa espressione complessa, suggerisce <strong>di</strong> associare<br />

ad ogni acronimo l’informazione relativa al nome per esteso. In questo modo,<br />

102


Co<strong>di</strong>ce linea e Tema<br />

in<strong>di</strong>pendentemente dal fatto che esso sia formato a partire dalle sole prime lettere iniziali (es.<br />

pil per prodotto interno lordo) o includa o meno le preposizioni o gli articoli (es. cdr per<br />

consiglio <strong>di</strong> revisione) oppure ancora sia formato <strong>di</strong> lettere maiuscole e minuscole (es. BoT<br />

per Buoni or<strong>di</strong>nari del Tesoro) o <strong>di</strong> sole lettere minuscole (es. cda per Consiglio <strong>di</strong><br />

Amministrazione) o <strong>di</strong> sole lettere maiuscole (es. AME per Accordo Monetario Europeo)<br />

oppure ancora includa o meno il segno <strong>di</strong> punto (es. spa ma anche s.p.a o S.p.A.), si può<br />

facilmente risalire alla forma base sciolta a cui l’acronimo si riferisce. Ad esempio, leggendo<br />

cdd o c.d.d o c.d.d. (o tutte le svariate forme con punti o lettere maiuscole/minuscole) si può<br />

risalire a consiglio dei delegati.<br />

Il riferimento esplicito all’espressione sciolta aiuta anche nei casi <strong>di</strong> ambiguità risolvibili solo<br />

attraverso il contesto (es. c.d è usato per in<strong>di</strong>care sia consigliere delegato sia comitato<br />

<strong>di</strong>rettivo).<br />

Si noti comunque che il numero <strong>di</strong> senso viene specificato solo nel caso in cui la sigla o<br />

l’acronimo figurano nella risorsa lessicale <strong>di</strong> riferimento (la sigla o l’acronimo in corso <strong>di</strong><br />

annotazione faranno parte dello stesso synset dell’espressione polilessicale corrispondente); in<br />

caso contrario viene assegnato il valore ‘no’ al tratto ns.<br />

Nel caso invece <strong>di</strong> USC <strong>di</strong> tipo terminologico non esistono criteri <strong>di</strong> in<strong>di</strong>viduazione specifici e<br />

pertanto si rimanda alla sezione 6.3.4.3.1 relativa ai “Criteri <strong>di</strong> identificazione delle espressioni<br />

i<strong>di</strong>omatiche e composti”.<br />

6.3.8 Casi <strong>di</strong> mancata corrispondenza tra la risorsa lessicale <strong>di</strong> riferimento e l’uso<br />

attestato<br />

In fase <strong>di</strong> assegnazione del un numero <strong>di</strong> senso ad una data occorrenza del corpus si possono<br />

verificare i seguenti casi problematici:<br />

• assenza del lemma nella risorsa lessicale <strong>di</strong> riferimento;<br />

• assenza del senso rilevante <strong>di</strong> un lemma già presente nella risorsa lessicale <strong>di</strong> riferimento;<br />

• corrispondenza con più sensi dello stesso lemma.<br />

Le modalità <strong>di</strong> annotazione <strong>di</strong> questi casi nell’ambito del progetto sono dettagliate <strong>di</strong> seguito.<br />

6.3.8.1 Assenza del lemma<br />

Si possono verificare i seguenti casi:<br />

- parole correnti non ancora inserite nel database lessicale <strong>di</strong> riferimento (perché in costruzione);<br />

- nomi propri (anche acronimi e sigle <strong>di</strong> ogni tipo, es. Andreotti, UNICEF);<br />

- parole composte (es. calce viva);<br />

- espressioni i<strong>di</strong>omatiche (es. tagliare la testa al toro);<br />

- parole straniere (es. capital_gain);<br />

103


Co<strong>di</strong>ce linea e Tema<br />

- neologismi (es. gli andreottiani; i piduisti)<br />

- terminologia (es. bilancia dei pagamenti)<br />

- ecc.<br />

Il caso <strong>di</strong> assenza del lemma nella risorsa lessicale <strong>di</strong> riferimento è co<strong>di</strong>ficato al livello del tratto<br />

ns, il cui valore è no_lemma (ns=no_lemma).<br />

Nell’ambito <strong>di</strong> SI-TAL questa assegnazione è generalmente da considerarsi come provvisoria in<br />

quanto una volta che la risorsa lessicale <strong>di</strong> riferimento sarà stata integrata con l’informazione<br />

mancante sarà sostituita con l’assegnazione definitiva.<br />

6.3.8.2 Assenza del senso rilevante <strong>di</strong> un lemma già presente in IWN<br />

Il caso <strong>di</strong> assenza del senso rilevante <strong>di</strong> un lemma già presente nella risorsa lessicale <strong>di</strong><br />

riferimento viene segnalato ai lessicografi in modo che possano effettuare l’integrazione della<br />

risorsa: il gruppo dei lessicografi vaglierà l’opportunità <strong>di</strong> tale integrazione.<br />

Le seguenti considerazioni generali forniranno all’annotatore una guida nella selezione dei casi<br />

da segnalare come “assenza <strong>di</strong> senso rilevante”:<br />

1) non sembra auspicabile la creazione <strong>di</strong> eccessiva granularità in un lessico semantico con varie<br />

finalità applicative in Natural Language Processing (si veda Fellbaum et al. 1998; Calzolari et<br />

al. (in corso <strong>di</strong> stampa); Voorhees 1998);<br />

2) l’identificazione <strong>di</strong> un nuovo senso e l’inserimento dello stesso nel database lessicale <strong>di</strong><br />

riferimento sono fortemente con<strong>di</strong>zionati anche dalle possibilità offerte dal database stesso <strong>di</strong><br />

identificarlo e descriverlo in modo univoco rispetto agli altri sensi;<br />

3) talvolta i contesti dell’occorrenza determinano più o meno importanti variazioni <strong>di</strong> significato<br />

che tuttavia non possono essere considerati sempre e in ogni caso veri e propri nuovi sensi<br />

(ciascun contesto infatti enfatizza determinati tratti semantici <strong>di</strong> un senso e ne oscura altri senza<br />

tuttavia determinare necessariamente l’esistenza <strong>di</strong> un nuovo significato).<br />

A parte queste considerazioni generali, non sembra esistano criteri univoci che possono essere<br />

sempre applicati a tutti i lemmi in<strong>di</strong>pendentemente dalla loro categoria morfo-sintattica e dalle loro<br />

caratteristiche sintattico-semantiche.<br />

Il caso <strong>di</strong> assenza del senso rilevante <strong>di</strong> un lemma già presente nella risorsa lessicale <strong>di</strong><br />

riferimento è co<strong>di</strong>ficato al livello del tratto ns, il cui valore è no_senso. Nell’ambito <strong>di</strong> SI-TAL,<br />

questa assegnazione è da considerarsi come provvisoria in quanto una volta che la risorsa lessicale<br />

<strong>di</strong> riferimento sarà stata integrata con l’informazione mancante sarà sostituita con l’assegnazione<br />

definitiva.<br />

6.3.9 Corrispondenza con più sensi dello stesso lemma<br />

Nel caso l’occorrenza in corso <strong>di</strong> annotazione trovi corrispondenza con più sensi dello stesso<br />

lemma, si procede come segue:<br />

104


Co<strong>di</strong>ce linea e Tema<br />

1. quando c’è una corrispondenza simultanea con più sensi dello stesso lemma, ad esempio S1 e<br />

S2, le due alternative sono fornite come segue: S1 & S2;<br />

Per esempio, mantenere che significa 1. tenere, far durare in modo che non venga meno (i<br />

contatti) e 2. tenere saldo, <strong>di</strong>fendere (un primato), figura nel corpus nei seguenti contesti:.<br />

- le Nazioni Unite <strong>di</strong>spongono <strong>di</strong> forze armate proprie per mantenere la pace<br />

- Potranno essi ad esempio mantenere la loro con<strong>di</strong>zione <strong>di</strong> neutralità?<br />

- Mentre taluni donatori sono <strong>di</strong>sposti a mantenere l’attuale livello dei loro stanziamenti <strong>di</strong><br />

aiuto<br />

Un altro esempio è conoscere che può significare sia 1. sapere, avere esperienza che 2. avere<br />

notizia, cognizione <strong>di</strong> qualcosa. Negli esempi del corpus coesistenza dei due significati<br />

permane:<br />

- La Commissione conosce i gravi problemi che la siccità pone all’agricoltura portoghese<br />

- La Commissione conosce perfettamente l’insod<strong>di</strong>sfacente situazione fiscale in cui si trovano<br />

le persone soggette all’imposta sul red<strong>di</strong>to<br />

In entrambi i casi riportati sopra, l’annotatore segnalerà la pertinenza <strong>di</strong> entrambi i sensi ai<br />

contesti annotati fornendo le due alternative congiunte.<br />

2. in casi <strong>di</strong> ambiguità del contesto, ovvero quando non vi siano elementi per poter <strong>di</strong>scriminare ad<br />

esempio tra S1 ed S2 si annota come segue: S1 | S2. Va detto che questo caso è previsto<br />

essenzialmente per completezza delle specifiche <strong>di</strong> annotazione dal momento che<br />

nell’annotazione <strong>di</strong> un testo continuo ci si aspetta che i contesti realmente ambigui siano pochi.<br />

Diamo qui <strong>di</strong> seguito un esempio. Mantenere che può significare 1.tenere, far durare in modo<br />

che non venga meno (i contatti) e 2. finanziare, figura nella frase:<br />

- Intende il Consiglio dei ministri della CEE mantenere ed eventualmente sviluppare<br />

un’attività <strong>di</strong> produzione europea in questo settore?<br />

In assenza <strong>di</strong> un contesto più ampio, non è possibile selezionare tra i due sensi in<strong>di</strong>cati sopra<br />

quello appropriato. In questo caso l’annotazione corretta dovrebbe segnalare l’ambiguità del<br />

contesto assegnando all’attributo ns una <strong>di</strong>sgiunzione <strong>di</strong> sensi possibili (1 e 2).<br />

I casi <strong>di</strong> corrispondenza con più sensi dello stesso lemma menzionati sopra sono co<strong>di</strong>ficati al<br />

livello del tratto ns il cui valore sono più sensi in relazione <strong>di</strong> congiunzione o <strong>di</strong>sgiunzione:<br />

ns=S1&S2; S1|S2.<br />

Tuttavia, per evitare l’uso frequente <strong>di</strong> operatori logici, in alcuni casi si ritiene opportuno non<br />

combinare i sensi bensì fare riferimento, nei casi in cui esista, al senso più generico. È questo il<br />

caso, ad esempio, del lemma russo, al quale sono associati in IWN tre sensi <strong>di</strong>stinti:<br />

- nativo della Russia<br />

- abitante della Russia<br />

- lingua<br />

dove la <strong>di</strong>stinzione tra il primo ed il secondo senso è piuttosto sottile e non facilmente<br />

applicabile in casi del tipo un operaio russo…, <strong>di</strong> fronte ai quali è preferibile fare riferimento al<br />

senso più generico (russo ‘nativo della Russia’).<br />

105


Co<strong>di</strong>ce linea e Tema<br />

Più in generale, in casi <strong>di</strong> <strong>di</strong>fficile interpretazione – ovvero dove il contesto non fornisca<br />

l’informazione sufficiente - è preferibile selezionare un’interpretazione sottospecificata piuttosto<br />

che fare una selezione <strong>di</strong> senso soggettiva e arbitraria, anche se plausibile.<br />

6.4 Aspetti <strong>di</strong> annotazione con SemTAS<br />

L'annotazione semantico-lessicale della <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata effettuata manualmente con<br />

l'ausilio <strong>di</strong> SemTAS, il sotto-sistema <strong>di</strong> GesTALt <strong>di</strong> supporto all’annotazione per questo livello. La<br />

progettazione <strong>di</strong> SemTAS è avvenuta sulla base delle Specifiche Tecniche elaborate al termine della<br />

Linea 1.1, quando il processo <strong>di</strong> annotazione vero e proprio non era stato ancora avviato.<br />

La fase <strong>di</strong> annotazione vera e propria ha dunque costituito il primo momento <strong>di</strong> validazione <strong>di</strong><br />

SemTAS. Inoltre, nel corso del processo <strong>di</strong> annotazione, le specifiche iniziali sono state riviste ed<br />

integrate alla luce dell'evidenza linguistica emergente dal corpus, come documentato nei rapporti <strong>di</strong><br />

fine Linea.<br />

In questa fase sono emersi aspetti delle specifiche non coperti al livello dell'interfaccia del tool <strong>di</strong><br />

annotazione e/o della struttura dati. Le revisioni apportate hanno riguardato soltanto l'insieme dei<br />

possibili valori associati ai vari attributi, che è stato arricchito sulla base dell’evidenza via via<br />

emergente dal corpus. Non è stato invece effettuato l’inserimento <strong>di</strong> nuovi attributi, che avrebbe<br />

alterato la struttura dei dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato,<br />

compromettendo la coerenza interna dei dati annotati. Analogamente al caso dell’annotazione<br />

funzionale (sezione 5.3), casi <strong>di</strong> questo tipo sono stati gestiti me<strong>di</strong>ante l'adozione <strong>di</strong> co<strong>di</strong>fiche<br />

transitorie al livello della base <strong>di</strong> dati <strong>di</strong> GesTALt, che sono state riconvertite secondo quanto<br />

previsto dalle specifiche al livello dell'output in XML (si veda l’Appen<strong>di</strong>ce relativa alla<br />

rappresentazione XML dell’annotazione semantico-lessicale). Questa sezione documenta le<br />

soluzioni <strong>di</strong> annotazione adottate transitoriamente per il livello semantico-lessicale.<br />

6.4.1 Combinando più risorse lessicali <strong>di</strong> riferimento<br />

La <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata annotata rispetto a due risorse lessicali <strong>di</strong> riferimento: IWN-Gen,<br />

per il lessico generico, ed EcoWN per il lessico specialistico del settore finanziario.<br />

Stando alla versione finale delle specifiche, l’informazione relativa alla risorsa lessicale <strong>di</strong><br />

riferimento è convogliata dall’attributo dbref, inserito nella struttura dati solo in un secondo tempo.<br />

Onde consentire la <strong>di</strong>stinzione delle due risorse lessicali <strong>di</strong> riferimento (IWN-Gen ed EcoWN) con<br />

gli attributi previsti nella fase iniziale delle Specifiche, si è operata la scelta <strong>di</strong> fare precedere i<br />

numeri <strong>di</strong> senso relativi a EcoWN con il simbolo “$”. I valori dell’attributo ns (numero_senso)<br />

possono quin<strong>di</strong> essere: un numero (es. ns=3) o la combinazione <strong>di</strong> più numeri in OR o AND per i<br />

casi <strong>di</strong> interpretazione dubbia (es. ns= 1|2, ns= 1&2), se la risorsa <strong>di</strong> riferimento è IWN-Gen;<br />

oppure una sequenza $numero (es. ns=$1) o la combinazione in OR o AND <strong>di</strong> più sequenze (es.<br />

ns=$1&$2), se la risorsa lessicale <strong>di</strong> riferimento è EcoWN.<br />

6.4.2 Annotazione <strong>di</strong> nomi propri polilessicali<br />

Per l’annotazione <strong>di</strong> nomi propri polilessicali (es. Nuova Zelanda, Stati Uniti d’America, Giulio<br />

Andreotti, Real Madrid, ecc.), ed in modo particolare per la specificazione della corrispondente<br />

classe semantica, l’insieme dei possibili valori dell’attributo tipousc è stato temporaneamente<br />

arricchito come segue:<br />

106


Co<strong>di</strong>ce linea e Tema<br />

• np_pers: per nomi propri polilessicali che si riferiscono a persona (es. Giulio Andreotti);<br />

• np_grup: per nomi propri polilessicali che si riferiscono a istituzioni, organizzazioni o gruppo<br />

<strong>di</strong> persone (es. Real Madrid, Cassa <strong>di</strong> Risparmio <strong>di</strong> Torino);<br />

• np_man: per nomi propri polilessicali che si riferiscono a prodotto/manufatto (es. Fiat<br />

Cinquecento, Windows 98);<br />

• np_luog: per nomi propri polilessicali che si riferiscono a luogo (es. Nuova Zelanda; Stati<br />

Uniti d’America);<br />

• np_grup&luog: per nomi propri polilessicali ai quali non è possibile attribuire univocamente<br />

luogo o gruppo (es. la posizione della Repubblica <strong>di</strong> S. Marino è preferibile);<br />

• np: per nomi propri polilessicali che si riferiscono ad altri tipi <strong>di</strong> entità (es. Lotteria d’Italia,<br />

Festa dei Lavoratori).<br />

Ad eccezione <strong>di</strong> “np” che è previsto tra i possibili valori per questo attributo, tali valori non sono<br />

del tutto appropriati rispetto alla semantica dell’attributo tipousc; tuttavia consentono l’annotazione<br />

al livello <strong>di</strong> SemTAS <strong>di</strong> nomi propri composti mantenendo inalterata la struttura dei dati.<br />

6.4.3 Annotazione <strong>di</strong> neologismi e voci <strong>di</strong>alettali<br />

Come riportato nella sezione 6.2.9, l’informazione <strong>di</strong> neologismo e voce <strong>di</strong>alettale è riportata al<br />

livello dell’attributo tipolemma, non previsto dalle specifiche iniziali. Questo tipo <strong>di</strong> informazione è<br />

stata temporaneamente registrata in relazione a due attributi presenti nella struttura dati, nota o alter:<br />

“neolog” marca i neologismi, “<strong>di</strong>al” le voci <strong>di</strong>alettali.<br />

6.4.4 GesTALt/SemTAS vs XML<br />

La tabella che segue riporta, nella prima colonna, le co<strong>di</strong>fiche transitorie adottate al livello <strong>di</strong><br />

SemTAS, mentre nella seconda colonna ne specifica la corrispondente co<strong>di</strong>fica al livello dell’output<br />

XML.<br />

GesTALt/SemTAS<br />

numero_senso=$numero senso o numeri senso<br />

combinati con operatori logici AND/OR<br />

numero_senso= numero senso o numeri senso<br />

combinati con operatori logici and/or<br />

nota=neol<br />

alterazione=neol<br />

nota=<strong>di</strong>al<br />

tipousc=np_pers<br />

tipousc=np_grup<br />

output XML<br />

dbref=eco<br />

numero_senso=numero senso o numeri senso<br />

combinati con operatori logici and/or (senza $)<br />

dbref=gen<br />

numero_senso: il valore <strong>di</strong> questo attributo<br />

rimane inalterato<br />

tipolemma=neol<br />

attributo nota eliminato<br />

tipolemma=neol<br />

attributo alterazione eliminato<br />

tipolemma=<strong>di</strong>al<br />

attributo nota eliminato<br />

nome_proprio=pers<br />

tipousc=np<br />

nome_proprio=grup<br />

tipousc=np<br />

107


Co<strong>di</strong>ce linea e Tema<br />

GesTALt/SemTAS<br />

tipousc=np_luog<br />

tipousc=np_man<br />

tipousc=np_grup&luog<br />

output XML<br />

nome_proprio=luog<br />

tipousc=np<br />

nome_proprio=man<br />

tipousc=np<br />

nome_proprio=grup&luog<br />

tipousc=np<br />

7 Sviluppo <strong>di</strong> GesTALt<br />

GesTALt è un sistema <strong>di</strong> applicazioni software <strong>di</strong> supporto alla creazione e validazione della<br />

risorsa <strong>Treebank</strong> progettato per supportare nelle loro attività quattro classi <strong>di</strong>stinte <strong>di</strong> utenti: gli<br />

annotatori della struttura sintattica a costituenti, gli annotatori della struttura sintattico-funzionale,<br />

gli annotatori semantico-lessicali ed i validatori.<br />

Compito degli annotatori è <strong>di</strong> creare la risorsa <strong>Treebank</strong> partendo da una base <strong>di</strong> documenti<br />

(BDA) contenente l’insieme <strong>di</strong> testi <strong>di</strong> un corpus annotati morfosintatticamente, mentre quello dei<br />

validatori è <strong>di</strong> controllare che la risorsa sia stata ben annotata.<br />

In maggior dettaglio, gli annotatori sintattici a costituenti, sintattico-funzionali, e semanticolessicali<br />

svolgono le loro attività al fine <strong>di</strong> produrre, rispettivamente, annotazioni sintattiche a<br />

costituenti, annotazioni sintattico-funzionali ed annotazioni semantico-lessicali dei testi <strong>di</strong> un<br />

corpus.<br />

GesTALt mette a <strong>di</strong>sposizione <strong>di</strong> ognuno degli annotatori (sintattici a costituenti, sintatticofunzionali,<br />

e semantico-lessicali) una specifica applicazione <strong>di</strong> supporto (SinTAS, FunTAS e<br />

SemTAS, rispettivamente) unitamente ad una vista parziale della BDA, in maniera tale che essi<br />

possano svolgere le loro attività <strong>di</strong> annotazione ognuno, separatamente, al proprio livello. Ciò al<br />

fine <strong>di</strong> rendere più agile l’annotazione e <strong>di</strong> evitare l’interferenza tra i vari livelli.<br />

A supporto dei validatori, invece, GesTALt mette a <strong>di</strong>sposizione l’applicazione ValTAS insieme<br />

ad una vista globale della BDA che permetta loro <strong>di</strong> verificare sia le scelte fatte dagli annotatori sia<br />

la congruenza tra i livelli <strong>di</strong> annotazione.<br />

Nel paragrafi seguenti si fornisce una descrizione del processo <strong>di</strong> sviluppo adottato durante le<br />

linee <strong>di</strong> ricerca 1.2 ed 1.3 del progetto, dell’architettura software <strong>di</strong> GesTALt ed, infine, delle<br />

principali funzionalità offerte dalle applicazioni <strong>di</strong> supporto agli annotatori ed ai validatori.<br />

7.1 Processo <strong>di</strong> sviluppo del software<br />

Durante le linee <strong>di</strong> ricerca 1.2 ed 1.3 del progetto SI-TAL si è adottato, per la produzione del<br />

sistema software per l’annotazione, la validazione e la navigazione della <strong>Treebank</strong> <strong>Sintattico</strong>-<br />

<strong>Semantica</strong> dell’Italiano GesTALt, un processo <strong>di</strong> sviluppo iterativo, facente uso <strong>di</strong> tecniche <strong>di</strong><br />

prototipazione evolutiva e comprendente le seguenti attività principali:<br />

A1. Definizione Requisiti Utente<br />

Definizione <strong>di</strong> un primo insieme <strong>di</strong> requisiti utente relativo alle funzionalità <strong>di</strong> base da dover<br />

includere in GesTALt. Tale attività comprende le seguenti sotto-attività:<br />

A1.1 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione sintattica a<br />

costituenti.<br />

108


Co<strong>di</strong>ce linea e Tema<br />

A1.2 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione sintatticofunzionale.<br />

A1.3 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione semanticolessicale.<br />

A1.4 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto alla validazione della<br />

<strong>Treebank</strong> <strong>di</strong> SiTAL<br />

A2. Co<strong>di</strong>fica<br />

Co<strong>di</strong>fica <strong>di</strong> un primo prototipo (<strong>di</strong> tipo evolutivo) <strong>di</strong> GesTALt sulla base dei requisiti utente<br />

raccolti. In maggior dettaglio, tale attività può essere specializzata nelle seguenti sotto-attività:<br />

A2.1 Co<strong>di</strong>fica <strong>di</strong> SinTAS, ovverosia del sottosistema <strong>di</strong> supporto all’annotazione sintattica a<br />

costituenti.<br />

A2.2 Co<strong>di</strong>fica <strong>di</strong> FunTAS, ovverosia del sottosistema <strong>di</strong> supporto all’annotazione sintatticofunzionale.<br />

A2.3 Co<strong>di</strong>fica <strong>di</strong> SemTAS, ovverosia del sottosistema <strong>di</strong> supporto all’annotazione semanticolessicale.<br />

A2.4 Co<strong>di</strong>fica <strong>di</strong> ValTAS, ovverosia del sottosistema <strong>di</strong> supporto alla validazione delle<br />

annotazioni.<br />

A3. Validazione <strong>di</strong> GesTALt<br />

Validazione delle funzionalità incluse nel prototipo realizzato. Le sotto-attività in cui si può<br />

sud<strong>di</strong>videre l’attività in oggetto sono:<br />

A3.1. Validazione <strong>di</strong> SinTAS.<br />

A3.2. Validazione <strong>di</strong> FunTAS.<br />

A3.3. Validazione <strong>di</strong> SemTAS.<br />

A3.4. Validazione <strong>di</strong> ValTAS.<br />

A4. Raffinamento dei Requisiti Utente<br />

Raffinamento dei requisiti utente prodotti sulla base dei commenti forniti dagli utenti durante<br />

l’attività <strong>di</strong> validazione del prototipo. L’attività in questione si compone delle seguenti sottoattività:<br />

A4.1 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione<br />

sintattica a costituenti.<br />

A4.2 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione<br />

sintattico-funzionale.<br />

A4.3 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione<br />

semantico-lessicale.<br />

A4.4 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto alla validazione della<br />

<strong>Treebank</strong> <strong>di</strong> SiTAL.<br />

A5. Raffinamento <strong>di</strong> GesTALt<br />

Raffinamento del prototipo prodotto finalizzato a produrre una nuova versione <strong>di</strong> GesTALt che<br />

sia conforme ai requisiti utente. In particolare, le sotto-attività in cui il raffinamento <strong>di</strong> GesTALt<br />

può essere sud<strong>di</strong>viso sono:<br />

A5.1 Raffinamento <strong>di</strong> SinTAS.<br />

A5.2 Raffinamento <strong>di</strong> FunTAS.<br />

A5.3 Raffinamento <strong>di</strong> SemTAS.<br />

109


Co<strong>di</strong>ce linea e Tema<br />

A5.4 Raffinamento <strong>di</strong> ValTAS.<br />

Contrariamente a quanto originariamente riportato nei piani <strong>di</strong> attuazione relativi alle linee <strong>di</strong><br />

ricerca 1.2 ed 1.3 del progetto, le varie attività ora introdotte non sono state eseguite nell’or<strong>di</strong>ne<br />

sopra in<strong>di</strong>cato, ma secondo quanto in<strong>di</strong>cato nella seguente tabella:<br />

Or<strong>di</strong>ne Attività Linea <strong>di</strong><br />

attuazione<br />

1 A1.1, A1.2, A1.3, A1.4 1.2<br />

2 A2.1, A2.2, A2.3 1.2<br />

3 A3.1, A3.2, A3.3, A4.1, A4.2, A4.3, A5.1, A5.2, A5.3 1.2<br />

4 A2.4 1.3<br />

5 A3.4 1.3<br />

Tabella 1 – Or<strong>di</strong>ne <strong>di</strong> esecuzione delle attività <strong>di</strong> sviluppo<br />

Come si può notare da quanto riportato in Tabella 1:<br />

− durante la linea <strong>di</strong> ricerca 1.2, sono state eseguite tutte le attività che vanno dalla prima<br />

definizione dei requisiti utente, al raffinamento dei sottosistemi SinTAS, FunTAS e<br />

SemTAS;<br />

− una prima versione dei requisiti utente relativi a ValTAS è stata prodotta durante la linea <strong>di</strong><br />

ricerca 1.2;<br />

− le attività <strong>di</strong> co<strong>di</strong>fica e validazione <strong>di</strong> ValTAS sono state effettuate durante la linea <strong>di</strong> ricerca<br />

1.3;<br />

− al termine della attività <strong>di</strong> validazione del sottosistema ValTAS, non si è reso necessario<br />

procedere all’attuazione delle attività <strong>di</strong> raffinamento dei requisiti ad esso relativi, nonché<br />

del sottosistema stesso (attività A4.4 ed A5.4).<br />

Che non sia stato necessario attuare le attività A4.4 ed A4.5, <strong>di</strong>pende fondamentalmente dal fatto<br />

che, prima <strong>di</strong> intraprendere la co<strong>di</strong>fica <strong>di</strong> ValTAS, è stato prodotto un emendamento dettagliato ai<br />

requisiti iniziali definiti durante l’attività A1.4. Tale emendamento ha permesso <strong>di</strong> sviluppare da<br />

subito un sottosistema che incontra le richieste dei validatori della <strong>Treebank</strong> <strong>di</strong> SI-TAL, piuttosto<br />

che un primo prototipo da dover essere successivamente rilavorato secondo le <strong>di</strong>rettive dell’utenza.<br />

Accanto alle attività sopra elencate, e durante entrambe le linee <strong>di</strong> ricerca 1.2 ed 1.3, è stata<br />

svolta, inoltre, una costatante attività <strong>di</strong> co<strong>di</strong>fica atta a produrre una serie <strong>di</strong> applicazioni <strong>di</strong> utilità<br />

de<strong>di</strong>cate a supportare gli annotatori e validatori durante il loro lavoro.<br />

7.2 Architettura <strong>di</strong> GesTALt<br />

Il sistema GesTALt può essere pensato come la composizione <strong>di</strong> quattro sottosistemi <strong>di</strong>stinti,<br />

denominati SinTAS, FunTAS, SemTAS e ValTAS de<strong>di</strong>cati, rispettivamente, al supporto delle<br />

attività <strong>di</strong> annotazione sintattica a costituenti, <strong>di</strong> annotazione sintattico–funzionale, <strong>di</strong> annotazione<br />

semantico–lesscicale e <strong>di</strong> validazione della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />

110


Co<strong>di</strong>ce linea e Tema<br />

Ognuno <strong>di</strong> detti sottosistemi raggruppa un ben definito insieme <strong>di</strong> componenti software i quali<br />

interagiscono l’uno con gli altri in modo tale da fornire le funzionalità richieste dagli utenti.<br />

I componenti software possono essere classificati come componenti comuni, nel caso in cui essi<br />

siano con<strong>di</strong>visi da due o più sottosistemi, o come componenti specializzati, se essi sono utilizzati da<br />

un unico sottosistema.<br />

L’architettura generale <strong>di</strong> GesTALt comprende dunque l’insieme dei componenti comuni nonché<br />

<strong>di</strong> quelli specializzati relativi a tutti i sottosistemi definiti. Tale architettura è descritta in Figura 1,<br />

dove i componenti software sono rappresentati come rettangoli, mentre le interazioni tra essi sono<br />

in<strong>di</strong>cate me<strong>di</strong>ante l’uso <strong>di</strong> frecce.<br />

SinTAS GUI<br />

FunTAS<br />

GUI<br />

SinTAS<br />

GUI<br />

SemTAS<br />

GUI<br />

FunTAS<br />

Manager<br />

SinTAS<br />

Manager<br />

SemTAS<br />

Manager<br />

ValTAS<br />

Manager<br />

Corpus Analizzato<br />

Morfo-Sintatticamente<br />

(XML Files)<br />

XML Loader<br />

(Wrapper-In)<br />

GesTALt<br />

OODB<br />

Tree Loader<br />

Annotazioni<br />

Sintattiche a Costituenti<br />

(XML Files)<br />

Correzioni al Corpus<br />

Analizzato<br />

Morfo-Sintatticamente<br />

(XML Files)<br />

Update Loader<br />

Wrapper-Out<br />

CorpusAnnotato<br />

(XML Files)<br />

CorpusAnnotato<br />

(HTML Files)<br />

SSParser<br />

StyleSheet<br />

Figura 1 – Architettura Software <strong>di</strong> GesTALt<br />

In maggior dettaglio, i componenti comuni ai vari sottosistemi sono:<br />

− GestTALt – OODB. È la base dati orientata agli oggetti (la DBA, cfr.7) utilizzata per<br />

immagazzinare all’interno <strong>di</strong> GesTALt l’intera <strong>Treebank</strong> <strong>di</strong> SI-TAL. Trattandosi <strong>di</strong> una base<br />

dati orientata agli oggetti, ogni entità linguistica è trattata come un oggetto software che<br />

incorpora quin<strong>di</strong> sia la struttura dati necessaria ad immagazzinare detta entità, sia l’insieme delle<br />

interrogazioni necessarie per reperire informazioni ad essa relative.<br />

− XML Loader (Wrapper-in). È il componente che provvede al caricamento dell’insieme <strong>di</strong> testi<br />

analizzati morfo-sintatticamente <strong>di</strong> un dato corpus nel GesTALt – OODB. Detto componente<br />

prende in ingresso un file in formato XML per ogni testo da introdurre.<br />

111


Co<strong>di</strong>ce linea e Tema<br />

− Wrapper-out. È il componente che provvede a produrre una rappresentazione XML delle<br />

annotazioni contenute nel GesTALt – OODB. L’uso del formalismo XML permette <strong>di</strong> rendere la<br />

<strong>Treebank</strong> <strong>di</strong> SI-TAL pubblicamente accessibile. Di fatti, le informazioni contenute in essa<br />

possono essere “navigate” in<strong>di</strong>pendentemente dalla <strong>di</strong>sponibilità del sistema GesTALt,<br />

me<strong>di</strong>ante un qualsiasi XML compliant internet browser.<br />

− SSParser. È il componente che permette <strong>di</strong> riorganizzare, me<strong>di</strong>ante l’uso <strong>di</strong> stylesheet, la<br />

rappresentazione XML della <strong>Treebank</strong> <strong>di</strong> SI-TAL prodotta me<strong>di</strong>ante Wrapper-out secondo una<br />

specifica data. Tale componente consente inoltre <strong>di</strong> convertire i documenti XML relativi alla<br />

<strong>Treebank</strong> in documenti HTML, testo, pdf o ps.<br />

− Update Loader. È il componente che permette <strong>di</strong> apportare eventuali correzioni all’annotazione<br />

morfo-sintattica <strong>di</strong> un corpus caricato nel GesTALt – OODB. Come nel caso dell’XML Loader,<br />

anche l’Update Loader prende in ingresso file in formato XML.<br />

− Merger. È il componente che permette <strong>di</strong> unificare le annotazioni contenute nelle varie viste<br />

parziale della BDA in un’unica base dati (cfr. 7) contenente l’intera <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />

I componenti specializzati relativi ai vari sottosistemi sono:<br />

− Le interfacce grafiche utilizzate per le attività <strong>di</strong> annotazione sintattica a costituenti, sintattico–<br />

funzionale e semantico–lessicale, nonché per quella <strong>di</strong> validazione (in Figura 1 denominati<br />

rispettivamente FunTAS GUI, SinTAS GUI, SemTAS GUI e ValTAS GUI). Si noti che la<br />

SemTAS GUI incorpora in se la FunTAS GUI, la SinTAS GUI e la SemTAS GUI estendendone<br />

inoltre le funzionalità.<br />

− I componenti software responsabili dell’accesso al GesTALt – OODB e dell’invocazione delle<br />

adeguate funzionalità delle interfacce grafiche <strong>di</strong> FunTAS, SinTAS, SemTAS e ValTAS. Tali<br />

componenti sono denominati in Figura 1 FunTAS Manager, SinTAS Manager, SemTAS<br />

Manager and ValTAS Manager, rispetivamente.<br />

− Il Tree Loader, ovverosia il componente che consente <strong>di</strong> caricare nel GesTALt – OODB<br />

annotazioni sintattiche a costituenti prodotte me<strong>di</strong>ante software de<strong>di</strong>cato e rappresentate<br />

me<strong>di</strong>ante formalismo XML.<br />

− ValTAS Pre-processor. È il componente necessario per la conversione del GestTALt – OODB<br />

dal formato proprietario dei tool <strong>di</strong> annotazione (FunTAS, SinTAS e SemTAS), a quello<br />

utilizzato da ValTAS.<br />

Identificati i vari componenti software, è possibile definire per gran<strong>di</strong> linee l’architettura <strong>di</strong><br />

ognuno dei sottosistemi <strong>di</strong> GesTALt come combinazione <strong>di</strong> uno o più componenti comuni e dei<br />

suoi componenti specializzati, come specificato nella tabella <strong>di</strong> seguito riportata.<br />

Sottosistema Componenti Comuni Componenti Specializzati<br />

SinTAS<br />

FunTAS<br />

GesTALt OODB<br />

XML Loader<br />

Update Loader<br />

Merger<br />

GesTALt OODB<br />

XML Loader<br />

SinTAS GUI<br />

SinTAS Manager<br />

Tree Loader<br />

FunTAS GUI<br />

112


Co<strong>di</strong>ce linea e Tema<br />

Sottosistema Componenti Comuni Componenti Specializzati<br />

SemTAS<br />

ValTAS<br />

Update Loader<br />

Merger<br />

GesTALt OODB<br />

XML Loader<br />

Update Loader<br />

Merger<br />

GesTALt OODB<br />

Wrappr Out<br />

FunTAS Manager<br />

SemTAS GUI<br />

SemTAS Manager<br />

ValTAS GUI<br />

ValTAS Manager<br />

ValTAS Pre-processor<br />

La versione <strong>di</strong> GesTALt rilasciata al termine della linea <strong>di</strong> ricerca 1.3 (versione 3.0) comprende<br />

l’implementazione <strong>di</strong> tutti i componenti software previsti per il sistema sopra elencati. Tra questi,<br />

Merger, ValTAS GUI, ValTAS Manager, ValTAS Pre-processor e Wrapper Out sono stati sviluppati<br />

durante la linea <strong>di</strong> ricerca 1.3.<br />

In conclusione mettiamo in evidenza che GesTALt si presenta all’utenza come un pacchetto <strong>di</strong><br />

applicazioni software (cfr. §7) formata dai tre tool <strong>di</strong> annotazione (SinTAS, FunTAS e SemTAS),<br />

dal tool <strong>di</strong> supporto alla validazione (ValTAS) e dall’insieme dei applicazioni <strong>di</strong> utilità formate da:<br />

− XML Loader<br />

− Update Loader<br />

− Tree Loader<br />

− Merger<br />

− ValTAS Pre-processor<br />

− Wrapper-out<br />

− SSParser.<br />

Per utilizzare FunTAS, SinTAS, SemTAS, XML Loader, Update Loader, Tree Loader e ValTAS<br />

Pre-processr le seguenti risorse hardware e software sono richieste:<br />

− Personal Computer equipaggiato con:<br />

− Processore tipo Intel PII (minimo) o Intel PIII (consigliato)<br />

− RAM 64 MB (minimo)<br />

− Sistema operativo Microsoft ® Windows NT4.0 SP4 (fortemente consigliato) o Microsoft ®<br />

Windows 9x.<br />

− ODI ® PsePRO (object-oriented dbms)<br />

− JDK 1.1.5 o superiore<br />

Per utilizzare ValTAS, Wrapper-out ed SSParser, sono invece richieste le seguenti risorse:<br />

− Personal Computer con:<br />

− Processore tipo Intel PIII<br />

− RAM 128 MB (minimo)<br />

− Sistema operativo Microsoft ® Windows NT4.0 SP4 o Microsoft ® Windows 2000<br />

− ODI ® PsePRO (object-oriented dbms)<br />

− SAXON Parser (versione 5.5.1)<br />

− JDK 1.2 o superiore<br />

113


Co<strong>di</strong>ce linea e Tema<br />

7.3 Funzionalità <strong>di</strong> GesTALt v3.0<br />

Nei paragrafi seguenti si fornisce una sintetica descrizione delle principali funzionalità <strong>di</strong><br />

ValTAS, SSParser e Wrapper-out così come si presentano nella versione 3.0 <strong>di</strong> GesTALt. Si noti<br />

che le funzionalità delle applicazioni <strong>di</strong> supporto agli annotatori sono invariate rispetto a quelle<br />

fornite alla fine della linea <strong>di</strong> ricerca 1.2 (GesTALt v2.0).<br />

7.3.1 ValTAS<br />

ValTAS è l’applicazione fornita dal pacchetto GesTALt a supporto della validazione della<br />

<strong>Treebank</strong> <strong>di</strong> SiTAL, e cioè <strong>di</strong> quell’attività mirata a controllare la correttezza e la consistenza delle<br />

annotazioni sintattico-funzionali, sintattiche a costituenti, nonché <strong>di</strong> quelle semantico-lessicali<br />

prodotte dagli annotatori.<br />

A tale scopo, ValTAS offre la possibilità <strong>di</strong> interrogare l’intera <strong>Treebank</strong> <strong>di</strong> SiTAL in base ad una<br />

qualunque caratteristica o combinazione <strong>di</strong> caratteristiche relative ad uno specifico livello <strong>di</strong><br />

annotazione. Il risultato <strong>di</strong> una interrogazione è l’insieme delle frasi in cui occorre l’annotazione<br />

cercata (Figura 2).<br />

Figura 2 – Interfaccia grafica <strong>di</strong> ValTAS<br />

Una volta recuperato l’insieme delle frasi risultante da una interrogazione utente, ValTAS<br />

permette, per ognuna delle frasi reperite, <strong>di</strong> visualizzare contemporaneamente la rappresentazione<br />

114


Co<strong>di</strong>ce linea e Tema<br />

grafica dei tre livelli <strong>di</strong> annotazione previsti, permettendo così un agevole controllo della<br />

consistenza tra essi (Figura 3).<br />

Figura 3 – Interfaccia grafica <strong>di</strong> ValTAS<br />

In maggior dettaglio, ValTAS consente <strong>di</strong> interrogare la <strong>Treebank</strong> per:<br />

− relazione funzionale, ed in particolare per:<br />

− relazione funzionale generica, specificando uno o più parametri tra quelli in<strong>di</strong>cati in<br />

Figura 4a;<br />

a) b)<br />

115


Co<strong>di</strong>ce linea e Tema<br />

Figura 4 –Parametri <strong>di</strong> interrogazione: relazioni generiche (a) e con testa nominale (b)<br />

− relazione funzionale con testa nominale, specificando uno o più parametri tra quelli<br />

in<strong>di</strong>cati in Figura 4b;<br />

− relazione funzionale con testa verbale, specificando uno o più parametri tra quelli<br />

in<strong>di</strong>cati in Figura 5a;<br />

− relazione funzionale con <strong>di</strong>pendente nominale, specificando uno o più parametri tra<br />

quelli in<strong>di</strong>cati in Figura 5b;<br />

a) b)<br />

Figura 5 – Parametri <strong>di</strong> interrogazione: relazioni con testa verbale (a) e con <strong>di</strong>pendente nominale (b)<br />

− relazione funzionale con <strong>di</strong>pendente verbale, specificando uno o più parametri tra quelli<br />

in<strong>di</strong>cati in Figura 6;<br />

Figura 6 – Parametri <strong>di</strong> interrogazione: relazioni con <strong>di</strong>pendente verbale<br />

− relazione funzionale con testa nominale e <strong>di</strong>pendente nominale, specificando uno o più<br />

parametri tra quelli in<strong>di</strong>cati in Figura 7;<br />

116


Co<strong>di</strong>ce linea e Tema<br />

Figura 7 – Parametri <strong>di</strong> interrogazione: relazioni con testa e <strong>di</strong>pendente nominale<br />

− relazione funzionale con testa verbale e <strong>di</strong>pendente nominale, specificando uno o più<br />

parametri tra quelli in<strong>di</strong>cati in Figura 8;<br />

Figura 8 – Parametri <strong>di</strong> interrogazione: relazioni con testa verbale e <strong>di</strong>pendente nominale<br />

− relazione funzionale con testa nominale e <strong>di</strong>pendente verbale, specificando uno o più<br />

parametri tra quelli in<strong>di</strong>cati in Figura 9;<br />

Figura 9 – Parametri <strong>di</strong> interrogazione: relazioni con testa nominale e <strong>di</strong>pendente verbale<br />

− relazione funzionale con testa verbale e <strong>di</strong>pendente verbale, specificando uno o più<br />

parametri tra quelli in<strong>di</strong>cati in Figura 10;<br />

117


Co<strong>di</strong>ce linea e Tema<br />

Figura 10 – Parametri <strong>di</strong> interrogazione: relazioni con testa e <strong>di</strong>pendente verbale<br />

−<br />

− costituente, ed in particolare per:<br />

− costituente semplice, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura 11a;<br />

− costituente complesso, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura 11b;<br />

a) b)<br />

Figura 11 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />

− unità semantica, ed in particolare per:<br />

− unità semantica generica, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura<br />

12a;<br />

− unità semantica semplice, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura<br />

12b;<br />

a) b)<br />

Figura 12 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />

118


Co<strong>di</strong>ce linea e Tema<br />

− unità semantica complessa, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura<br />

13a;<br />

− unità semantica titolo, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura 13b.<br />

a) b)<br />

Figura 13 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />

7.3.2 Wrapper-out<br />

Wrapper-out è l’applicazione del pacchetto GesTALt che consente <strong>di</strong> produrre la<br />

rappresentazione XML della <strong>Treebank</strong> <strong>di</strong> SI-TAL a partire dai dati contenuti nel GesTALt OODB.<br />

I documenti XML prodotti in uscita dal Wrapper-out sono organizzati in maniera fortemente<br />

strutturata: una parte <strong>di</strong> essi rappresenta le informazioni atomiche relative alle annotazioni<br />

morfologiche, sintattico-funzionali, sintattiche a costituenti, semantiche, nonché alle caratteristiche<br />

ortografiche delle singole frasi contenute nella BDA, mentre i rimanenti sono utilizzati per<br />

realizzare le relazioni tra le informazioni atomiche.<br />

Come risultato, i documenti XML <strong>di</strong> uscita del Wrapper-out non presentano alcuna duplicazione<br />

<strong>di</strong> informazione, e possono quin<strong>di</strong> essere facilmente manipolati (me<strong>di</strong>ante XSLt e Xpath, ad<br />

esempio) senza correre il rischio <strong>di</strong> creare inconsistenza.<br />

Di seguito è riportata la specifica (me<strong>di</strong>ante DTD) dei principali documenti XML prodotti dal<br />

Wrapper-out:<br />

File in<strong>di</strong>ce:<br />

<br />

<br />

<br />

<br />

<br />

<br />

119


Co<strong>di</strong>ce linea e Tema<br />

File delle frasi:<br />

<br />

<br />

<br />

<br />

<br />

Annotazione funzionale (per frase):<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

120


Co<strong>di</strong>ce linea e Tema<br />

Annotazione Sintattica a Costituenti (per frase):<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />


Co<strong>di</strong>ce linea e Tema<br />

tipo CDATA #REQUIRED<br />

commento CDATA #IMPLIED<br />

nota CDATA #IMPLIED<br />

ustid ID #REQUIRED><br />

7.3.3 SSParser<br />

SSParser è l’applicazione del pacchetto GesTALt che permette <strong>di</strong> trasformare un insieme <strong>di</strong><br />

documenti XML contenuti in una <strong>di</strong>rectory sorgente in un nuovo insieme <strong>di</strong> documenti XML, i<br />

quali si <strong>di</strong>fferenziano dai sorgenti per la <strong>di</strong>versa strutturazione dei dati in essi contenuti. In tal modo,<br />

è ad esempio possibile produrre viste (in formato XML) sulla <strong>Treebank</strong> <strong>di</strong> SI-TAL a partire dalla<br />

sua rappresentazione XML.<br />

L’SSParser permette inoltre <strong>di</strong> convertire i documenti XML relativi alla <strong>Treebank</strong> <strong>di</strong> SI-TAL in<br />

documenti HTML, PDF, PS o TXT. A titolo <strong>di</strong> esempio dell’uso <strong>di</strong> SSParser, alla fine della linea <strong>di</strong><br />

ricerca 1.3 sono stati prodotti i file HTML relativi all’intera <strong>Treebank</strong> <strong>di</strong> SI-TAL (Figura 14).<br />

Figura 14 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />

122


Co<strong>di</strong>ce linea e Tema<br />

8 Valutazione<br />

L'attività <strong>di</strong> valutazione è stata svolta utilizzando sia ValTAS, l'interfaccia grafica <strong>di</strong><br />

consultazione della <strong>Treebank</strong>, sia le equivalenti informazioni rese <strong>di</strong>sponibili in modo testuale. In<br />

particolare, le interrogazioni realizzate sulla trascrizione delle annotazioni hanno reso possibile<br />

l'estrazione <strong>di</strong> particolari marcature al fine <strong>di</strong> verificare la presenza o meno <strong>di</strong> situazioni ricorrenti<br />

per cui fosse possibile intervenire nella definizione della nostra grammatica.<br />

Riteniamo che la modalità con cui abbiamo acceduto alle informazioni della <strong>Treebank</strong> possa<br />

essere molto simile, a livello logico, alle modalità con cui sarà possibile accedere alla versione<br />

finale della <strong>Treebank</strong> stessa, quando questa sarà <strong>di</strong>sponibile in formato XML e quin<strong>di</strong> interrogabile<br />

con opportuni linguaggi.<br />

Ve<strong>di</strong>amo nel dettaglio cosa è stato fatto.<br />

Occorre, innanzi tutto, specificare che la grammatica che definisce i legami sintattici dei<br />

componenti <strong>di</strong> una frase si articola in due parti logiche <strong>di</strong>stinte: una per definire le proprietà che<br />

caratterizzano i termini e le loro capacità <strong>di</strong> aggregarsi con altri componenti della frase, ed una per<br />

realizzare la composizione degli elementi al fine <strong>di</strong> ricostruire l'albero sintattico della struttura della<br />

frase da analizzare.<br />

A questa sud<strong>di</strong>visione logica corrisponde una <strong>di</strong>versa localizzazione delle informazioni:<br />

• le proprietà <strong>di</strong> aggregazione sintattica dei termini vengono inserite all'interno del <strong>di</strong>zionario,<br />

nella parte <strong>di</strong> analisi relativa alla sintassi;<br />

• le modalità con cui le proprietà sintattiche dei termini vengono combinate per riempire gli<br />

slot sono definite in un file opportuno, in Prolog.<br />

Il lavoro per reperire le informazioni presenti nella <strong>Treebank</strong> si è articolato secondo il seguente<br />

schema:<br />

1. analisi <strong>di</strong> una errata costruzione dell'albero sintattico <strong>di</strong> copertura <strong>di</strong> una frase, a partire da<br />

una traduzione scorretta<br />

2. in<strong>di</strong>viduazione della corrispondente annotazione all'interno della <strong>Treebank</strong><br />

3. reperimento <strong>di</strong> tutte le strutture analoghe<br />

4. analisi delle informazioni recuperate e inserimento, dove opportuno, <strong>di</strong> nuove informazioni<br />

all'interno della grammatica.<br />

Tali attività sono state svolte sia singolarmente sui tre livelli <strong>di</strong> annotazione (funzionale, a<br />

costituenti, semantico), sia utilizzando la combinazione dei due livelli sintattici o dell'annotazione<br />

semantica con quella funzionale.<br />

Occorre precisare che per la realizzazione del punto 3 appena descritto, per la maggior parte<br />

delle interrogazioni, sono stati elaborati dei programmi. Sono stati utilizzati come linguaggi <strong>di</strong><br />

programmazione il Perl ed il Visual Basic For Application. Il Perl è stato scelto per la sua versatilità<br />

nell'elaborazione <strong>di</strong> stringhe ed è stato impiegato nella fase iniziale del lavoro, fase in cui sono stati<br />

ristrutturati i dati resi <strong>di</strong>sponibili da Certia; il VBA è stato utilizzato durante la fase <strong>di</strong> estrazione<br />

123


Co<strong>di</strong>ce linea e Tema<br />

delle informazioni, per uniformità con la procedura <strong>di</strong> valutazione realizzata durante la linea<br />

precedente.<br />

L'attività sull'annotazione sintattica funzionale è stata più rilevante, grazie alla maggiore quantità<br />

(nel senso <strong>di</strong> espressività) <strong>di</strong> informazioni presenti nella trascrizione testuale della <strong>Treebank</strong>. Ciò ha<br />

permesso <strong>di</strong> realizzare estrazioni che in seguito si potrebbe prevedere <strong>di</strong> realizzare con un<br />

linguaggio <strong>di</strong> interrogazione per l'XML. Non è stato possibile fare altrettanto sulla trascrizione<br />

dell'annotazione a costituenti, per la quale si è potuto utilizzare solo l'annotazione grafica <strong>di</strong> ValTas.<br />

Alcune delle interrogazioni effettuate sono analoghe a quelle che si possono realizzare in ValTas<br />

con il notevole vantaggio <strong>di</strong> poter ottenere risultati espliciti (come elenchi <strong>di</strong> termini, porzioni <strong>di</strong><br />

frasi, ecc.); altre sono più articolate poiché prevedono l'unione logica (OR) delle relazioni o la<br />

verifica della sola presenza <strong>di</strong> un valore <strong>di</strong> un tratto in<strong>di</strong>pendentemente dal valore che questo<br />

assume. In seguito, le interrogazioni realizzate verranno descritte utilizzando, per quanto riguarda<br />

l'annotazione sintattica funzionale, lo stesso tipo <strong>di</strong> notazione presente nella trascrizione realizzata<br />

da Certia, specificando solo i campi influenti ai fini dell'interrogazione e tralasciando quelli i cui<br />

valori non sono stati ritenuti interessanti nello specifico contesto.<br />

Nel seguito verranno dettagliate le operazioni compiute. Per quanto riguarda le attività <strong>di</strong><br />

mo<strong>di</strong>fica svolte all'interno della grammatica <strong>di</strong> PeTra, verrà illustrato il tipo <strong>di</strong> informazione inserito<br />

e se ne in<strong>di</strong>cherà la finalità, tralasciando il formalismo utilizzato al fine <strong>di</strong> consentire una più facile<br />

lettura. Si sottolinea che, in questa attività, anche la mo<strong>di</strong>fica più piccola comporta una serie <strong>di</strong><br />

operazioni che non verranno descritte ad ogni passo, ma che sono in<strong>di</strong>spensabili per evitare <strong>di</strong><br />

introdurre rumore sul lavoro già realizzato. Il formalismo della grammatica, infatti, si basa<br />

sull'applicazione <strong>di</strong> proprietà comuni a categorie <strong>di</strong> termini, richieste dalla modalità <strong>di</strong><br />

funzionamento del nostro sistema linguistico e identificate per rispondere a specifiche esigenze<br />

della traduzione; non sempre tali categorie si ritrovano nella grammatica descrittiva tra<strong>di</strong>zionale.<br />

Questo significa che la minima mo<strong>di</strong>fica alle informazioni introdotte potrebbe causare effetti<br />

collaterali a catena, per scongiurare i quali occorre realizzare numerose verifiche sia su frasi<br />

contenenti la situazione su cui si sta lavorando, sia su frasi simili per le quali valgono regole<br />

<strong>di</strong>verse. Infine, la verifica conclusiva viene realizzata su porzioni <strong>di</strong> testo generico. Solo a questo<br />

punto è possibile passare alla mo<strong>di</strong>fica successiva. Si può quin<strong>di</strong> dedurre la mole <strong>di</strong> lavoro che<br />

anche la mo<strong>di</strong>fica più banale comporta.<br />

Come già accennato, siamo partiti analizzando le frasi mal tradotte da PeTra Word. Tra queste<br />

abbiamo analizzato quelle per cui la cattiva traduzione era dovuta ad una errata costruzione<br />

dell'albero sintattico nella parte <strong>di</strong> analisi dell'italiano. Abbiamo, quin<strong>di</strong>, cercato <strong>di</strong> capire il<br />

problema e <strong>di</strong> vedere come veniva risolta l'annotazione nella <strong>Treebank</strong>. I paragrafi che seguono<br />

descrivono le problematiche in<strong>di</strong>viduate, i criteri con cui sono state prelevate le informazioni nella<br />

<strong>Treebank</strong> e gli interventi <strong>di</strong> correzione realizzati.<br />

Gli interventi sono stati essenzialmente <strong>di</strong> 3 tipi: sulla parte <strong>di</strong> analisi del <strong>di</strong>zionario, sulla<br />

grammatica e sul transfer.<br />

124


Co<strong>di</strong>ce linea e Tema<br />

8.1 Mo<strong>di</strong>fiche al <strong>di</strong>zionario<br />

8.1.1 Derivanti dalla sintassi<br />

8.1.1.1 Reggenze<br />

Una delle maggiori <strong>di</strong>fficoltà in un sistema <strong>di</strong> traduzione automatica è l'in<strong>di</strong>viduazione delle<br />

corrette <strong>di</strong>pendenze <strong>di</strong> gruppi nominali introdotti da preposizione, <strong>di</strong>pendenti sia da verbi che da<br />

sostantivi. L'esplicitazione delle reggenze tipiche porta ad una migliore costruzione dell'albero <strong>di</strong><br />

copertura della frase. Abbiamo quin<strong>di</strong> in<strong>di</strong>viduato nella <strong>Treebank</strong> le reggenze presenti ed inserito<br />

nel nostro sistema quelle mancanti.<br />

8.1.1.2 Testa nominale<br />

Durante la costruzione dell'albero <strong>di</strong> copertura <strong>di</strong> una frase, PeTra cerca <strong>di</strong> in<strong>di</strong>viduare le corrette<br />

<strong>di</strong>pendenze aggregando i componenti presenti. Nel caso <strong>di</strong> un sintagma introdotto da preposizione,<br />

la tendenza più ricorrente è quella <strong>di</strong> far <strong>di</strong>pendere tale gruppo da una forma verbale, a meno che<br />

non sia presente un sostantivo per il quale la preposizione in esame costituisca una reggenza tipica o<br />

si sia in presenza <strong>di</strong> un complemento <strong>di</strong> specificazione (introdotto dalla preposizione <strong>di</strong>).<br />

L'esplicitazione nel <strong>di</strong>zionario delle reggenze tipiche dei sostantivi aiuta dunque nella costruzione<br />

dell'albero. Questo tipo <strong>di</strong> informazione è, però, <strong>di</strong>fficilmente reperibile in <strong>di</strong>zionari cartacei e/o<br />

tra<strong>di</strong>zionali.<br />

Abbiamo quin<strong>di</strong> constatato che al nostro sistema mancava spesso la corretta in<strong>di</strong>viduazione <strong>di</strong> un<br />

gruppo assimilabile a quello che nell'annotazione a costituenti è identificato come un SN, al cui<br />

interno è presente un SP (SPD o SPDA).<br />

In<strong>di</strong>viduato il problema, abbiamo deciso <strong>di</strong> ampliare la casistica appena descritta compilando un<br />

programma <strong>di</strong> interrogazione della trascrizione testuale dell'annotazione funzionale per estrarre tutte<br />

le teste e gli introduttori dei <strong>di</strong>pendenti che sod<strong>di</strong>sfacevano quanto segue:<br />

Tipo relazione: mod | arg<br />

Testa nominale:<br />

POS: S<br />

* :<br />

POS <strong>di</strong>pendente: S | A | N | V | P*<br />

Introduttore <strong>di</strong>pendente: not "" 3<br />

Il programma <strong>di</strong> interrogazione ha quin<strong>di</strong> restituito un elenco <strong>di</strong> sostantivi con le relative<br />

reggenze presenti nel corpus. Tali coppie <strong>di</strong> valori sono state esaminate manualmente al fine <strong>di</strong><br />

eliminare quelle con uso spora<strong>di</strong>co: le rimanenti sono andate ad arricchire le entrate del <strong>di</strong>zionario<br />

3 Con introduttore: not "" si intende che il valore dell'introduttore deve essere una stringa <strong>di</strong>versa dalla stringa vuota,<br />

della quale non viene però specificato il valore. Ricor<strong>di</strong>amo che, in informatica, per stringa si intende una qualunque<br />

sequenza <strong>di</strong> caratteri alfanumerici<br />

125


Co<strong>di</strong>ce linea e Tema<br />

corrispondenti alle "teste" in<strong>di</strong>viduate, con l'esplicitazione <strong>di</strong> uno slot specifico per il gruppo<br />

preposizionale. In questa maniera sono state in<strong>di</strong>viduate reggenze tipiche come<br />

• incontro con<br />

• integrazione tra<br />

• simposio su<br />

mentre sono state scartate presenze del tipo:<br />

• cre<strong>di</strong>to a<br />

• facilitazione per.<br />

8.1.1.3 Testa verbale<br />

Come spiegato al punto precedente, i complementi in<strong>di</strong>retti vengono <strong>di</strong> preferenza legati alla<br />

forma verbale presente. Anche in questa situazione, però, risulta utile l'esplicitazione delle<br />

reggenze: in presenza <strong>di</strong> più forme verbali aiuta a <strong>di</strong>scriminare la corretta <strong>di</strong>pendenza.<br />

Anche in questo caso sono state rilevate, nei costituenti, delle annotazioni non sempre<br />

in<strong>di</strong>viduate dagli alberi generati in PeTra, come quella della giusta attribuzione <strong>di</strong> un COMP* al<br />

corrispondente IBAR.<br />

E' stato quin<strong>di</strong> realizzato un programma, analogo al precedente, per realizzare un'interrogazione<br />

sulle relazioni annotate nel funzionale secondo i seguenti criteri:<br />

Tipo relazione: *<br />

Testa verbale:<br />

POS: V<br />

Dipendente nominale:<br />

POS <strong>di</strong>pendente: S | N | P* | A | D*<br />

Introduttore <strong>di</strong>pendente: not""<br />

che hanno portato all'in<strong>di</strong>viduazione <strong>di</strong> situazioni come<br />

• riunire in<br />

• stabilizzare su.<br />

Anche questo secondo elenco è stato attentamente esaminato al fine <strong>di</strong> eliminare le occorrenze<br />

spora<strong>di</strong>che: le rimanenti sono state inserite nella parte <strong>di</strong> informazioni sintattiche presenti nel<br />

<strong>di</strong>zionario.<br />

8.1.1.4 Espressioni polilessicali<br />

Come era facile supporre, il contesto specialistico in cui si inseriscono i testi selezionati può<br />

comportare un uso particolare dell'italiano, o comunque <strong>di</strong>verso da quello presente nei testi <strong>di</strong> tipo<br />

informatico da noi più <strong>di</strong> frequente esaminati. Questo portava il nostro sistema <strong>di</strong> traduzione a mal<br />

interpretare la costruzione della frase o a tradurre letteralmente sequenze <strong>di</strong> parole aventi traduzioni<br />

specifiche. In relazione a tali usi e alle relative traduzioni in Inglese, abbiamo esaminato i risultati<br />

126


Co<strong>di</strong>ce linea e Tema<br />

delle interrogazioni che seguono, realizzate con un programma in grado <strong>di</strong> estrarre le terminologie<br />

presenti, a partire dalla trascrizione dell'annotazione funzionale.<br />

Ricor<strong>di</strong>amo, come già descritto nelle precedenti relazioni, che nel nostro sistema si intendono<br />

come espressioni polilessicali tutte quelle sequenze <strong>di</strong> termini che necessitano <strong>di</strong> una particolare<br />

traduzione o che occorre bloccare per evitare <strong>di</strong> mal interpretare la costruzione dell'albero. Tali<br />

espressioni, inoltre, hanno <strong>di</strong>verse caratterizzazioni e non vengono trattate sempre nella stessa<br />

maniera, come:<br />

a. espressioni polilessicali invariabili (es. made in Italy)<br />

b. espressioni polilessicali con sequenza costante ma con i singoli componenti che ammettono<br />

la flessione (es. bilanci/io provvisori/io)<br />

c. espressioni polilessicali che possono presentarsi con dei mo<strong>di</strong>ficatori, vincolate solo dalla<br />

relazione sintattica (es. assestare [velocemente] i conti 4 )<br />

Le tre situazioni vengono risolte in maniera <strong>di</strong>versa:<br />

a. inserendo una entrata specifica nel <strong>di</strong>zionario<br />

b. aggiungendo al termine reggente una nuova analisi, che scatti nei casi in cui il termine sia<br />

accompagnato dal resto della sequenza<br />

c. come <strong>di</strong>sambiguazione basata sul valore dei suoi complementi<br />

Nel seguito verranno descritte le situazioni in<strong>di</strong>viduate e gli interventi realizzati, ma eviteremo <strong>di</strong><br />

andare nel dettaglio delle scelte implementative per evitare <strong>di</strong> appesantire il <strong>di</strong>scorso.<br />

8.1.1.5 Dipendenza in<strong>di</strong>retta con testa nominale<br />

Per estrarre l'elenco dei complementi in<strong>di</strong>retti retti da testa nominale, abbiamo scritto un<br />

programma che in<strong>di</strong>vidua le annotazioni sintattiche funzionali caratterizzate da:<br />

Tipo relazione: mod | arg<br />

Testa nominale:<br />

POS: S<br />

Dipendente nominale:<br />

POS <strong>di</strong>pendente: S<br />

Introduttore <strong>di</strong>pendente: not""<br />

e che restituisce la sequenza:<br />

lemma_testa introduttore lemma_<strong>di</strong>pendente<br />

4 assestarsi si traduce genericamente con to settle in, mentre assestare i conti <strong>di</strong>venta to balance the account<br />

127


Co<strong>di</strong>ce linea e Tema<br />

In questo modo abbiamo ottenuto un elenco piuttosto consistente, che è stato esaminato<br />

manualmente al fine <strong>di</strong> estrarre le potenziali espressioni "da bloccare". Nella scelta ci siamo fatti<br />

guidare soprattutto dalla corrispondente traduzione in inglese. Così procedendo abbiamo<br />

in<strong>di</strong>viduato situazioni come<br />

• azionista <strong>di</strong> riferimento<br />

• calo delle ven<strong>di</strong>te<br />

• posto <strong>di</strong> lavoro<br />

• controllo del traffico<br />

L'uso <strong>di</strong> un programma in grado <strong>di</strong> estrarre l'elenco delle potenziali espressioni polilessicali ha<br />

permesso <strong>di</strong> lavorare più agevolmente, grazie alla restituzione ad un elenco da esaminare. Per<br />

ciascun elemento dell'elenco, è stato poi deciso l'intervento più opportuno da realizzare (secondo<br />

quanto descritto ai punti a., b., c.), esaminando tutti i possibili usi per evitare che vengano bloccate<br />

situazioni non univocamente interpretabili. Si rimanda all'esempio fornito al documento precedente<br />

circa l'esame <strong>di</strong> per cui (congiunzione polilessicale, ma anche preposizione seguita da pronome).<br />

In questo modo, per:<br />

• calo delle ven<strong>di</strong>te è stata aggiunta, all'entrata calo, un'analisi per bloccare la sequenza calo/i<br />

delle ven<strong>di</strong>te<br />

• apertura del mercato è stata inserita, in corrispondenza <strong>di</strong> apertura, una specifica traduzione<br />

nel caso in cui il lemma sia mo<strong>di</strong>ficato da un complemento <strong>di</strong> specificazione riempito da<br />

mercato (o da una sua flessione)<br />

8.1.1.6 Dipendenza in<strong>di</strong>retta con testa verbale<br />

Per ritrovare le espressioni rette da testa verbale, si è proceduto in maniera analoga al punto<br />

precedente, utilizzando un programma che agisse in maniera simile, con criteri <strong>di</strong> ricerca<br />

leggermente <strong>di</strong>versi:<br />

Tipo relazione: obl | mod | ogg_i<br />

Testa verbale:<br />

POS: V<br />

Dipendente nominale:<br />

POS <strong>di</strong>pendente: S<br />

Introduttore <strong>di</strong>pendente: not""<br />

ottenendo un elenco del tipo:<br />

lemma_testa introduttore lemma_<strong>di</strong>pendente.<br />

Anche questo elenco è stato analizzato secondo i criteri visti sopra, per eliminare le sequenze<br />

superflue e, per ciascuna sequenza rimasta, è stata scelta la strategia più opportuna per l'inserimento<br />

nel <strong>di</strong>zionario. Alcuni esempi delle sequenze trovate sono:<br />

• riunirsi in seduta<br />

128


Co<strong>di</strong>ce linea e Tema<br />

• giungere a un'intesa<br />

8.1.1.7 Dipendenza <strong>di</strong>retta con testa nominale<br />

Un'altra ricerca realizzata ha portato all'in<strong>di</strong>viduazione <strong>di</strong> mo<strong>di</strong>ficatori con apposizione.<br />

L'interrogazione è stata realizzata con i seguenti criteri:<br />

Tipo relazione: not(cong)<br />

Testa nominale:<br />

POS: S<br />

Dipendente nominale:<br />

POS <strong>di</strong>pendente: S<br />

Introduttore <strong>di</strong>pendente: ""<br />

Abbiamo così ottenuto un elenco composto da coppie <strong>di</strong> sostantivi. Anche in questo caso si è<br />

proceduto ad una scrematura guidata dal senso e dalla traduzione in lingua inglese. Le coppie<br />

rimaste sono state inserite nel <strong>di</strong>zionario utilizzando sempre gli stessi criteri sin qui descritti. Tra<br />

esse abbiamo, per esempio:<br />

• forza lavoro<br />

• fine anno<br />

8.1.1.8 Dipendenza <strong>di</strong>retta con testa verbale<br />

In quest'ultimo caso relativo alle espressioni polilessicali, abbiamo cercato <strong>di</strong> in<strong>di</strong>viduare i verbi<br />

che in presenza <strong>di</strong> particolari complementi oggetti vengono tradotti in modo i<strong>di</strong>omatico. Abbiamo<br />

quin<strong>di</strong> realizzato un programma in grado <strong>di</strong> estrarre una sequenza <strong>di</strong> verbi transitivi con i relativi<br />

complementi oggetti a partire da un'interrogazione del tipo:<br />

Tipo relazione: ogg_d<br />

Testa verbale:<br />

POS: V<br />

SFEAT: V*T 5<br />

Dipendente nominale:<br />

POS <strong>di</strong>pendente: S<br />

Introduttore <strong>di</strong>pendente: ""<br />

Sono, così, state in<strong>di</strong>viduate tutte le occorrenze dei complementi <strong>di</strong>retti presenti nella parte <strong>di</strong><br />

corpus selezionato. Anche questa volta, l'elenco ottenuto è stato analizzato al fine <strong>di</strong> in<strong>di</strong>viduare i<br />

<strong>di</strong>pendenti che fanno assumere al verbo reggente, o alla composizione con esso, una particolare<br />

5 con V*T si intendono tutte le stringhe che iniziano con V, terminano con T, e al cui interno possono essere presenti<br />

zero o più caratteri. Abbiamo utilizzato questo simbolismo per evitare <strong>di</strong> elencare tutte le situazioni come: VGT, VIRT,<br />

VT,…, relative a verbi transitivi.<br />

129


Co<strong>di</strong>ce linea e Tema<br />

traduzione. Le forme ottenute sono state inserite come espressioni polilessicali, sempre utilizzando i<br />

criteri già esposti.<br />

Esempi <strong>di</strong> espressioni ottenute sono:<br />

• accogliere gli accantonamenti<br />

• accusare una <strong>di</strong>fficoltà<br />

• fare presa.<br />

In particolare in questo caso, la maggior parte degli inserimenti sono stati realizzati secondo le<br />

modalità della <strong>di</strong>sambiguazione, come illustrato al punto c. all'inizio <strong>di</strong> questo paragrafo. Ciò è<br />

dovuto al fatto che la relazione che lega un verbo al suo complemento oggetto verte su leggi che<br />

possono essere in<strong>di</strong>viduate con criteri sintattici; questo permette la presenza <strong>di</strong> altri termini<br />

interme<strong>di</strong>, come gli avverbi.<br />

Ad esempio, per riprendere i casi riportati sopra, la traduzione <strong>di</strong> accusare nel contesto descritto,<br />

non deve essere <strong>di</strong>versa se la frase viene costruita come:<br />

egli ha accusato sempre molte <strong>di</strong>fficoltà.<br />

8.1.1.9 Specifiche consultazioni<br />

L'utilizzo della <strong>Treebank</strong> ha portato a ricerche sistematiche, come quelle appena descritte, ma<br />

anche a ricerche mirate alle singole costruzioni, alcune delle quali vengono descritte in questo<br />

paragrafo. Tra le più significative, abbiamo due ricerche non previste a priori, in<strong>di</strong>spensabili, però,<br />

per il corretto funzionamento dell'analisi dell'italiano: la corretta impostazione dell'ausiliare in verbi<br />

intransitivi, e la molteplicità delle accezione per una stessa variante grafica.<br />

Per costruire correttamente l'albero <strong>di</strong> analisi della frase italiana, in PeTra sono esplicitati, per i<br />

verbi intransitivi, gli ausiliari necessari per la costruzione dei tempi composti. Analizzando alcune<br />

traduzioni ci siamo accorti che in alcuni verbi tale informazione non era corretta. Abbiamo quin<strong>di</strong><br />

scritto un nuovo programma <strong>di</strong> interrogazione del documento contenente la trascrizione<br />

dell'annotazione funzionale al fine <strong>di</strong> in<strong>di</strong>viduare i lemmi dei verbi aventi i seguenti tratti:<br />

Tipo relazione: *<br />

[ Testa Verbale:<br />

POS: V<br />

SFEAT: VGPROG | VIIN | VIN | VGIN | VIRIN | VPPIN | VPRIN<br />

Ausiliare: avere<br />

]<br />

or<br />

[ Dipendente Verbale:<br />

POS: V<br />

SFEAT: VGPROG | VIIN | VIN | VGIN | VIRIN | VPPIN | VPRIN<br />

Ausiliare: avere<br />

]<br />

Con l'elenco dei lemmi così ottenuto, abbiamo eseguito una verifica manuale delle informazioni<br />

riportate nel nostro <strong>di</strong>zionario e realizzato gli opportuni aggiustamenti.<br />

130


Co<strong>di</strong>ce linea e Tema<br />

Questo è stato un esame imprevisto della <strong>Treebank</strong>, che ci ha permesso <strong>di</strong> reperire informazioni<br />

importanti: l'uso della <strong>Treebank</strong> si <strong>di</strong>mostra quin<strong>di</strong> versatile e aperto ad analisi inattese.<br />

Sempre analizzando le frasi tradotte, ci siamo resi conto della presenza <strong>di</strong> qualche problema<br />

nell'analisi <strong>di</strong> alcuni lemmi: nel nostro <strong>di</strong>zionario, essi non erano presenti con tutte le accezioni<br />

previste dall'italiano. Ad esempio, in PeTra romanzo era presente solo come sostantivo e non come<br />

aggettivo (filologia romanza).<br />

Una situazione analoga si è presentata con proprio: utilizziamo questo esempio per comprendere<br />

il tipo <strong>di</strong> lavoro realizzato.<br />

Abbiamo, come prima cosa, estratto tutte le annotazioni coinvolgenti il lemma in esame,<br />

in<strong>di</strong>pendentemente dalla forma e dal tipo <strong>di</strong> relazione. Ci siamo quin<strong>di</strong> resi conto dell'assenza<br />

dell'analisi <strong>di</strong> proprio come aggettivo possessivo, a causa della quale non venivano costruite<br />

relazioni che nella <strong>Treebank</strong> abbiamo in<strong>di</strong>viduato come:<br />

Tipo relazione: mod<br />

Testa nominale:<br />

POS: S<br />

Dipendente:<br />

Lemma : proprio<br />

POS : AP<br />

L'estrazione <strong>di</strong> tutte le classificazioni <strong>di</strong> proprio sono state invece estratte con l'interrogazione:<br />

Tipo relazione: *<br />

[ Testa *:<br />

Lemma: proprio<br />

]<br />

or<br />

[ Dipendente *:<br />

Lemma : proprio<br />

]<br />

8.1.2 Derivanti dalla semantica<br />

8.1.2.1 Inserimento dei semantic type <strong>di</strong>sponibili<br />

Le mo<strong>di</strong>fiche al <strong>di</strong>zionario derivanti dall'analisi semantica hanno comportato l'inserimento <strong>di</strong><br />

numerosi semantic type. In PeTra, i semantic type vengono utilizzati per determinare la corretta<br />

traduzione <strong>di</strong> un termine quando questo è messo in relazione con un altro appartenente ad una<br />

particolare categoria. Ad esempio:<br />

• versare si può tradurre to pour<br />

ma se è seguito da un complemento oggetto <strong>di</strong> tipo money si traduce to deposit<br />

Il nostro lavoro si è articolato nei seguenti passi:<br />

131


Co<strong>di</strong>ce linea e Tema<br />

• in<strong>di</strong>viduazione dei termini annotati semanticamente nella <strong>Treebank</strong><br />

• in<strong>di</strong>viduazione del senso corrispondente all'interno <strong>di</strong> ItalWordNet<br />

• in<strong>di</strong>viduazione del semantic type corrispondente in PeTra<br />

• inserimento del semantic type nel <strong>di</strong>zionario, nella parte <strong>di</strong> analisi relativa al lemma<br />

• verifica del rispetto della corretta traduzione in relazione ai termini in cui è utilizzato.<br />

Abbiamo inserito il semantic type ad un numero consistente <strong>di</strong> lemmi presenti e, come ci si<br />

poteva aspettare sulla base del corpus selezionato, quello più utilizzato è stato money.<br />

8.1.2.2 Nuovo semantic type<br />

Il lavoro effettuato ha portato, oltre all'inserimento dei semantic type già previsti in PeTra,<br />

all'in<strong>di</strong>viduazione <strong>di</strong> un nuovo senso, il cui utilizzo, a partire dalle informazioni contenute in<br />

ItalWordNet, è stato me<strong>di</strong>ato dalle necessità della traduzione.<br />

Il nuovo semantic type è in relazione al senso qualità <strong>di</strong> ItalWordNet, al quale siamo arrivati<br />

utilizzando la catena degli iperonimi delle forme che an<strong>di</strong>amo a descrivere. Ci sono infatti termini<br />

(come coraggio, importanza, esperienza, …) che in italiano si legano al verbo avere (avere<br />

coraggio, avere importanza, …) ma che in inglese vengono retti dal verbo essere (to be brave, to be<br />

important). Abbiamo quin<strong>di</strong> inserito un nuovo semantic type nella gerarchia <strong>di</strong> PeTra, denotando<br />

con esso i termini sopra elencati, e aggiungendo una nuova <strong>di</strong>sambiguazione in corrispondenza<br />

dell'entrata <strong>di</strong> avere quando è seguito da un termine appartenente a quella categoria.<br />

Naturalmente c'è da osservare che non tutti i termini che sono qualità verranno classificati con il<br />

nuovo semantic type: anche in questo caso le informazioni estratte vengono filtrate da criteri <strong>di</strong><br />

necessità vincolati alla logica della traduzione. Ne segue che le qualità che non richiedono il to be<br />

non rientreranno in questa nostra categoria.<br />

8.1.2.3 Derivanti dalla semantica in combinazione con la sintassi<br />

Partendo dall'annotazione semantica, sono state in<strong>di</strong>viduate tutte le parole aventi più <strong>di</strong> un senso<br />

nel corpus e tra queste, quelle aventi una <strong>di</strong>versa traduzione <strong>di</strong>pendente dal significato. Di queste<br />

sono state considerate tutte le frasi in cui sono presenti e <strong>di</strong> esse sono state analizzate le annotazione<br />

sintattiche con ValTas: ciò ha portato all'in<strong>di</strong>viduazione <strong>di</strong> costruzioni che caratterizzano la parola<br />

in relazione al significato. Ad esempio<br />

• articolo: se è mo<strong>di</strong>ficato da un numerale car<strong>di</strong>nale in<strong>di</strong>vidua una parte <strong>di</strong> una legge<br />

Tale informazione è stata inserita nel <strong>di</strong>zionario come <strong>di</strong>sambiguazione in corrispondenza<br />

dell'entrata articolo, che ammetterà così una specifica costruzione ed una opportuna traduzione.<br />

8.2 Mo<strong>di</strong>fiche alla grammatica<br />

In questo paragrafo vengono descritti gli interventi più significativi realizzati sulla grammatica,<br />

sud<strong>di</strong>visi in base alla tipologia delle regole coinvolte. Le regole della grammatica, infatti, non sono<br />

tutte dello stesso tipo: alcune si occupano <strong>di</strong> costruire l'albero <strong>di</strong> copertura, altre <strong>di</strong> cancellare<br />

132


Co<strong>di</strong>ce linea e Tema<br />

l'alternativa <strong>di</strong> un albero riconosciuto come mal costruito, ed altre <strong>di</strong> attribuire una probabilità ad<br />

una costruzione in<strong>di</strong>viduata.<br />

8.2.1 Raffinamento delle regole per la costruzione dell'albero<br />

In questo paragrafo vengono descritti alcuni degli interventi effettuati sulle regole per migliorare<br />

la capacità del sistema <strong>di</strong> traduzione <strong>di</strong> costruire l'albero <strong>di</strong> copertura per l'analisi della frase<br />

italiana. La mancata, o errata, costruzione dell'albero infatti determina una errata interpretazione<br />

delle relazioni esistenti tra gli elementi della frase e, conseguentemente, porta ad una traduzione<br />

scorretta o, in certi casi, totalmente errata.<br />

8.2.1.1 Participi interpretati come aggettivi<br />

Questo è un problema <strong>di</strong> omografi: nella lingua italiana, molti aggettivi sono anche participi<br />

passati <strong>di</strong> verbi e spesso la <strong>di</strong>stinzione della corretta POS è strettamente <strong>di</strong>pendente dalla semantica<br />

della frase. Tuttavia dobbiamo osservare che nell'ottica <strong>di</strong> un sistema <strong>di</strong> traduzione automatica<br />

questa <strong>di</strong>stinzione <strong>di</strong>venta rilevante solo quando le traduzioni dell'aggettivo e del participio<br />

corrispondente sono <strong>di</strong>verse (es. pulito agg. clean, p.p. cleaned). La scelta che è stata fatta<br />

all'interno del <strong>di</strong>zionario <strong>di</strong> PeTra è stata quella <strong>di</strong> inserire il lemma aggettivale solo per gli<br />

omografi aventi <strong>di</strong>versa traduzione, così da non duplicare inutilmente gli alberi <strong>di</strong> analisi. Per questi<br />

ultimi casi si pone il problema <strong>di</strong> in<strong>di</strong>viduare le regole sintattiche per riuscire, dove possibile, a<br />

<strong>di</strong>stinguere le due accezioni. La grammatica <strong>di</strong> PeTra cerca <strong>di</strong> <strong>di</strong>scriminare la corretta analisi<br />

facendo uso <strong>di</strong> opportune regole <strong>di</strong> cancellazione. Ad esempio, in combinazione con gli ausiliari<br />

viene scelto il lemma verbale. Tale scelta si compie "cancellando" l'alternativa contenente il lemma<br />

aggettivale. Se invece la forma era in combinazione con un sostantivo, veniva scelto il lemma<br />

aggettivale: questo provocava il mancato aggancio <strong>di</strong> alcuni tipi <strong>di</strong> mo<strong>di</strong>ficatori da essa <strong>di</strong>pendenti,<br />

a causa della non completezza delle regole <strong>di</strong> PeTra.<br />

Una frase in cui si presentava questo tipo <strong>di</strong> problema era:<br />

[…] lungo un orizzonte in<strong>di</strong>cato convenzionalmente in due anni.<br />

Con le interrogazioni realizzate sull'annotazione sintattica della <strong>Treebank</strong> siamo riusciti ad<br />

ampliare questa casistica.<br />

Abbiamo realizzato la seguente ricerca:<br />

Tipo relazione: mod<br />

Testa verbale<br />

POS: V<br />

SFEAT: PPAS<br />

Dipendente *:<br />

Introduttore: not""<br />

Esprimendo in maniera meno sintetica, rispetto al formalismo descritto, i risultati ottenuti, si può<br />

<strong>di</strong>re che siamo giunti alla conclusione che in presenza <strong>di</strong> complementi in<strong>di</strong>retti retti da una forma<br />

che può essere sia aggettivo che verbo, occorre privilegiare il verbo scrivendo opportune regole <strong>di</strong><br />

cancellazione per l'aggettivo.<br />

133


Co<strong>di</strong>ce linea e Tema<br />

8.2.1.2 Quanto<br />

Abbiamo notato l'incapacità della nostra grammatica <strong>di</strong> legare quanto, come pronome relativo,<br />

ad un participio passato. Per risolvere il problema abbiamo analizzato le due annotazioni sintattiche<br />

e rilevato quanto segue.<br />

In una frase come:<br />

Contrariamente a quanto avvenuto nelle altre ven<strong>di</strong>te […]<br />

• nell'annotazione a costituenti, la parte sottolineata risulta essere un SV3<br />

• nell'annotazione funzionale, esiste una relazione <strong>di</strong> tipo Mod nella quale quanto è la testa con<br />

il <strong>di</strong>pendente verbale avvenire.<br />

Nella grammatica <strong>di</strong> PeTra non erano previste regole per legare il pronome quanto ad un<br />

participio passato. Inserita questa mo<strong>di</strong>fica, il sottoalbero <strong>di</strong> copertura <strong>di</strong> quella porzione <strong>di</strong> frase è<br />

stato costruito correttamente.<br />

8.2.1.3 Lo - pre<strong>di</strong>cato preposto<br />

Di solito in italiano, a meno <strong>di</strong> casi particolari, i pre<strong>di</strong>cati dei verbi copulativi seguono la forma<br />

verbale, tranne alcune eccezioni (es.: "non lo è"). Eseguendo interrogazioni del tipo:<br />

Tipo relazione: pred<br />

Testa verbale:<br />

Dipendente *:<br />

e verificando le costruzioni con la grafica <strong>di</strong> ValTas, abbiamo in<strong>di</strong>viduato la presenza <strong>di</strong> lo come<br />

pre<strong>di</strong>cato preposto. E' quin<strong>di</strong> stata inserita la possibilità <strong>di</strong> ammettere anche questa costruzione<br />

all'interno della grammatica <strong>di</strong> PeTra.<br />

Per completare questa mo<strong>di</strong>fica è stato necessario l'inserimento <strong>di</strong> opportune regole <strong>di</strong> transfer,<br />

come verrà descritto nel paragrafo relativo.<br />

8.2.1.4 Aggettivi come incisi<br />

Alla grammatica <strong>di</strong> PeTra mancava la possibilità <strong>di</strong> associare ad un sostantivo un aggettivo nel<br />

caso in cui questo fosse espresso come inciso (scritto tra virgole) e seguito da altri complementi<br />

in<strong>di</strong>retti, come in frasi del tipo:<br />

[…] dopo il restyling del gruppo, necessario per […,…]<br />

La possibilità <strong>di</strong> ammettere costruzioni <strong>di</strong> questo tipo è stata dedotta analizzando entrambe le<br />

annotazioni sintattiche:<br />

• nel funzionale, esiste una relazione <strong>di</strong> tipo mod tra il sostantivo e l'aggettivo che regge<br />

l'inciso (parte sottolineata, nell'esempio)<br />

134


Co<strong>di</strong>ce linea e Tema<br />

• nei costituenti, l'inciso è denotato come SA, al cui livello più alto è presente un A (il<br />

<strong>di</strong>pendente mo<strong>di</strong>ficatore della relazione del funzionale), che con il sostantivo S a cui si<br />

riferisce forma un SN.<br />

Ammettendo la possibilità <strong>di</strong> avere costruzioni aggettivali <strong>di</strong> questo tipo, i sottoalberi <strong>di</strong><br />

copertura vengono costruiti correttamente.<br />

8.2.1.5 Quest'ultimo<br />

E' stata ampliata la regola che lega un determiner (articolo, aggettivo <strong>di</strong>mostrativo,…) ad un<br />

aggettivo sostantivato. In PeTra non venivano riconosciute, infatti, le sequenze del tipo:<br />

aggettivo <strong>di</strong>mostrativo + aggettivo (sostantivato)<br />

come quest'ultimo. Occorre aggiungere che in PeTra, per convenzione, non viene inserita la<br />

classificazione <strong>di</strong> sostantivo per quei lemmi che sono essenzialmente aggettivi: il loro uso come<br />

sostantivi viene riconosciuto e quin<strong>di</strong> generato in fase <strong>di</strong> analisi.<br />

Nell'annotazione sintattica funzionale, tale relazione mancante è stata in<strong>di</strong>viduata con<br />

l'interrogazione seguente:<br />

Tipo relazione: mod<br />

Testa nominale:<br />

Lemma: ultimo<br />

POS: S<br />

Dipendente:<br />

Lemma : questo<br />

POS : DD<br />

MFEAT: MFEAT(testa) 6<br />

ed inserita come nuova regola che coinvolge le due categorie <strong>di</strong> termini.<br />

8.2.1.6 Prima ancora che<br />

La sequenza prima ancora che non veniva in<strong>di</strong>viduata in PeTra. In frasi del tipo:<br />

[…] era gia' stato concordato prima ancora che si svolgessero le elezioni.<br />

non veniva riconosciuto che tale costruzione costituisce l'introduttore <strong>di</strong> una subor<strong>di</strong>nata.<br />

Anche in questo caso sono state analizzate entrambe le annotazioni sintattiche:<br />

• nei costituenti: la parte sottolineata è annotata come FS, cioè subor<strong>di</strong>nata con introduttore;<br />

6 Questa scrittura vuol significare che il valore <strong>di</strong> MFEAT del <strong>di</strong>pendente deve essere uguale a quello <strong>di</strong> MFEAT<br />

della testa<br />

135


Co<strong>di</strong>ce linea e Tema<br />

• nel funzionale: sono presenti le seguenti relazioni:<br />

mod(ancora, prima)<br />

mod(concordare, ancora)<br />

arg(concordare, svolgere).<br />

Dall'insieme <strong>di</strong> queste relazioni si riesce a comprendere che l'introduttore della subor<strong>di</strong>nata<br />

svolge un ruolo <strong>di</strong> comparazione temporale andando a mo<strong>di</strong>ficare il verbo della reggente.<br />

8.2.2 Raffinamento delle regole <strong>di</strong> cancellazione<br />

Nella grammatica <strong>di</strong> PeTra esistono le regole positive, appena esaminate, che si occupano <strong>di</strong><br />

ricostruire l'albero <strong>di</strong> copertura della frase, e delle regole <strong>di</strong> cancellazione. Queste ultime sono<br />

utilizzate per l'eliminazione <strong>di</strong> particolari accezioni <strong>di</strong> un lemma sulla base delle informazioni<br />

morfosintattiche relative all'elemento in esame e a quelli a<strong>di</strong>acenti. Questo permette <strong>di</strong> limitare i<br />

tentativi effettuati dall'analisi vera e propria.<br />

In tali regole <strong>di</strong> cancellazione sono definite le con<strong>di</strong>zioni per cui devono scattare, ma anche le<br />

limitazioni per le quali ciò deve avvenire.<br />

In questo paragrafo sono descritte sia alcune nuove regole <strong>di</strong> cancellazione, che alcune nuove<br />

limitazioni per il loro utilizzo.<br />

8.2.2.1 Sostantivi interpretati come verbi<br />

In italiano, molte forme verbali della prima persona dell'in<strong>di</strong>cativo presente risultano essere<br />

omografi <strong>di</strong> sostantivi.<br />

In relazione alle forme verbali omografe <strong>di</strong> sostantivi, sono state ridefinite le circostanze che<br />

devono verificarsi affinché scatti la regola <strong>di</strong> cancellazione del sottoalbero contenente la forma<br />

interpretata come sostantivo. Tale ridefinizione è stata realizzata con delle euristiche dall'analisi<br />

delle singole frasi, avendo riscontrato un'alta presenza <strong>di</strong> questo tipo <strong>di</strong> errore. La conferma della<br />

necessità della ridefinizione è venuta dai risultati dell'interrogazione dell'annotazione funzionale<br />

basata su un solo tratto:<br />

Tipo relazione: *<br />

[ Testa verbale:<br />

POS: V<br />

MFEAT: S1IP<br />

]<br />

or<br />

[ Dipendente verbale :<br />

POS : V<br />

MFEAT: S1IP<br />

]<br />

Infatti, le forme aventi nel tratto Mfeat il valore specificato si sono rivelate statisticamente rare:<br />

questo ci ha portato a rivedere i criteri con cui, in PeTra, tali analisi erano invece preferite al<br />

sostantivo.<br />

136


Co<strong>di</strong>ce linea e Tema<br />

8.2.2.2 Più<br />

Un problema che la <strong>Treebank</strong> ci ha aiutato a risolvere è stata la corretta analisi <strong>di</strong> più. Nel nostro<br />

sistema, infatti, non erano presenti sufficienti regole in grado <strong>di</strong> in<strong>di</strong>viduare il corretto ruolo <strong>di</strong> più.<br />

Abbiamo quin<strong>di</strong> estratto dall'annotazione funzionale tutte le presenze <strong>di</strong> più e il contesto in cui<br />

queste si trovano. In seguito all'analisi <strong>di</strong> queste informazioni sono state in<strong>di</strong>viduate una nuova<br />

regola <strong>di</strong> cancellazione e una limitazione ad una regola <strong>di</strong> cancellazione esistente.<br />

Abbiamo, infatti, rilevato che tutti i più che mo<strong>di</strong>ficano un aggettivo sono avverbi: in PeTra<br />

abbiamo quin<strong>di</strong> inserito la regola <strong>di</strong> cancellazione <strong>di</strong> più come preposizione se seguito da aggettivo<br />

(la costruzione errata ricadeva nella più generale regola positiva per la quale una preposizione può<br />

precedere un aggettivo).<br />

E' stata ampliata la limitazione riguardante la regola <strong>di</strong> cancellazione <strong>di</strong> più come preposizione:<br />

più come preposizione non veniva cancellato solo nel caso in cui fosse seguito da un numerale.<br />

Adesso non viene cancellato anche nel caso sia seguito da un determiner.<br />

8.2.2.3 Come<br />

Le frasi costruite come:<br />

Non si tratta <strong>di</strong> prendere > , come paventa il ministro Maroni .<br />

creavano problemi <strong>di</strong> riconoscimento in PeTra, in quanto il come era identificato come<br />

avverbio interrogativo e il soggetto posposto veniva scambiato per complemento oggetto.<br />

L'analisi delle costruzioni che coinvolgono il come ha portato all'in<strong>di</strong>viduazione <strong>di</strong> situazioni del<br />

tipo:<br />

• nei costituenti: una F introdotta da come con POS = Conj;<br />

• nel funzionale: verbo transitivo <strong>di</strong> modo finito,<br />

tale verbo svolge ruolo <strong>di</strong> testa in una relazione <strong>di</strong> soggetto, con soggetto<br />

posposto,<br />

è assente la relazione <strong>di</strong> complemento oggetto.<br />

Il problema era dovuto all'esistenza, nella grammatica <strong>di</strong> PeTra, <strong>di</strong> una regola <strong>di</strong> cancellazione<br />

per eliminare i sottoalberi relativi a frasi non interrogative, prive (apparentemente!) <strong>di</strong> soggetto.<br />

L'unica possibilità <strong>di</strong> interpretare frasi come quella citata era <strong>di</strong> considerarla interrogativa e con<br />

soggetto sottinteso. La regola che portava alla cancellazione descritta è stata inibita nel caso in cui<br />

la F <strong>di</strong>penda da come in qualità <strong>di</strong> congiunzione.<br />

8.2.3 Mo<strong>di</strong>fica delle preferenze e delle restrizioni<br />

Il terzo tipo <strong>di</strong> regole si occupa <strong>di</strong> assegnare delle penalità: in caso <strong>di</strong> ambiguità si procede<br />

costruendo tutti gli alberi possibili, ma non tutti con lo stesso valore <strong>di</strong> probabilità. Questa<br />

informazione viene utilizzata nei casi in cui non si riesca ad eliminare l'ambiguità procedendo con<br />

la costruzione dell'albero: quelli con maggiore penalizzazione vengono eliminati. Nel seguito sono<br />

esposte alcune delle restrizioni realizzate a partire dalle due annotazioni funzionali.<br />

137


Co<strong>di</strong>ce linea e Tema<br />

8.2.3.1 Sono<br />

Anche in questo caso la presenza <strong>di</strong> due omografi impe<strong>di</strong>va la classificazione corretta. Rilevando<br />

nel corpus una scarsa presenza <strong>di</strong> sono come prima persona dell'in<strong>di</strong>cativo presente, abbiamo deciso<br />

<strong>di</strong> inserire una penalità in corrispondenza <strong>di</strong> quella forma: al momento della costruzione dell'albero,<br />

in caso <strong>di</strong> completa ambiguità, viene data la preferenza alla terza persona plurale.<br />

8.2.3.2 Ieri<br />

Gli avverbi <strong>di</strong> tempo compaiono spesso come teste in relazioni <strong>di</strong> tipo Mod nell'annotazione<br />

sintattica. Il mo<strong>di</strong>ficatore può essere una congiunzione (anche ieri) o un avverbio (proprio ieri) con<br />

i quali genera un SAVV nell'annotazione sintattica a costituenti, o un sostantivo (ieri pomeriggio)<br />

con il quale genera un SN. In questo secondo caso la costruzione non può essere ammessa con tutti i<br />

sostantivi, in particolare deve essere evitata la costruzione con gli SP. Ad esempio, una frase in cui<br />

PeTra costruiva un albero errato, conteneva la sequenza:<br />

[...] ha spiegato ieri Mandela […]<br />

dove ieri e Mandela andavano a generare un sostantivo composto. L'interrogazione della<br />

<strong>Treebank</strong> non ha fatto in<strong>di</strong>viduare nessuna situazione <strong>di</strong> questo tipo, ma solo quelle dei tre tipi sopra<br />

descritti. Per risolvere tale situazione è stata implementata la restrizione sul tipo <strong>di</strong> nomi che<br />

possono andare a mo<strong>di</strong>ficare un avverbio <strong>di</strong> tempo.<br />

8.2.3.3 Dopo<br />

Il problema <strong>di</strong> dopo è dovuto alla corretta <strong>di</strong>scriminazione del suo uso come preposizione o come<br />

avverbio. Nell'annotazione a costituenti, la sua presenza come preposizione fa etichettare tutto il<br />

gruppo che regge come SP, ma per comprendere le relazioni <strong>di</strong> cui tenere conto nella<br />

<strong>di</strong>sambiguazione risulta fondamentale analizzare l'annotazione funzionale. Abbiamo infatti<br />

osservato che dopo non può essere avverbio quando è imme<strong>di</strong>atamente seguito da un sostantivo che<br />

ha ruolo <strong>di</strong> mo<strong>di</strong>ficatore <strong>di</strong> un verbo per il quale la relazione <strong>di</strong> soggetto sia già stata saturata.<br />

Facendo un esempio, nella porzione <strong>di</strong> frase:<br />

[…] dopo la libertà politica venga davvero anche l'eguaglianza […]<br />

abbiamo le seguenti annotazioni funzionali:<br />

mod(venire, libertà)<br />

sogg(venire, eguaglianza)<br />

E' quin<strong>di</strong> stata mo<strong>di</strong>ficata la regola che prende dopo come avverbio se valgono le con<strong>di</strong>zioni:<br />

- dopo è seguito da un sintagma nominale, con il quale crea un gruppo preposizionale<br />

- il verbo da cui <strong>di</strong>pende il gruppo preposizionale ha lo slot soggetto già saturato<br />

La mo<strong>di</strong>fica comporta una penalizzazione sulla scelta <strong>di</strong> dopo come avverbio se la verifica delle<br />

con<strong>di</strong>zione elencate dà esito positivo.<br />

138


Co<strong>di</strong>ce linea e Tema<br />

8.3 Mo<strong>di</strong>fiche al transfer<br />

Le mo<strong>di</strong>fiche apportate al <strong>di</strong>zionario e alla grammatica, grazie alle informazioni reperite nella<br />

<strong>Treebank</strong>, hanno permesso <strong>di</strong> riconoscere nuove strutture. In alcuni casi è stato necessario scrivere<br />

anche regole <strong>di</strong> transfer strutturale per assicurare una corretta traduzione dell'intera frase.<br />

Nel seguito sono descritti alcuni degli interventi realizzati. Anche in questo caso eviteremo <strong>di</strong><br />

utilizzare la sintassi interna <strong>di</strong> PeTra al fine <strong>di</strong> consentire una più facile lettura.<br />

8.3.1 Lo - pre<strong>di</strong>cato preposto<br />

Come già accennato, ammettere la costruzione con lo come pre<strong>di</strong>cato preposto ha portato alla<br />

costruzione <strong>di</strong> un nuovo tipo <strong>di</strong> albero <strong>di</strong> copertura per la frase italiana. Ad esso dovrà ora<br />

corrispondere un opportuno albero per la costruzione della frase inglese. Tale "ristrutturazione"<br />

avviene per mezzo delle regole <strong>di</strong> transfer.<br />

In questo caso è stata inserita una regola per la cancellazione del nodo lo, riconosciuto come<br />

pre<strong>di</strong>cato, e ne viene aggiunto uno con il pronome che svolge il ruolo <strong>di</strong> soggetto espresso.<br />

Ad esempio, la frase:<br />

non lo è<br />

deve <strong>di</strong>ventare<br />

it is not<br />

attraverso l'eliminazione del pre<strong>di</strong>cato e l'aggiunta del soggetto espresso calcolato sulla flessione<br />

del verbo.<br />

8.3.2 Subor<strong>di</strong>nate infinitive<br />

L'inglese prevede una categoria <strong>di</strong> verbi che non possono reggere delle infinitive, cosa che non<br />

trova corrispondenza in italiano. Per tali verbi l'infinitiva "italiana" viene trasformata in un'oggettiva<br />

"inglese", attraverso una opportuna ristrutturazione dell'albero <strong>di</strong> copertura nel passaggio dalla<br />

lingua sorgente alla lingua destinazione.<br />

Ciò permette ora <strong>di</strong> passare da<br />

a:<br />

Dico <strong>di</strong> andare<br />

I say that I go.<br />

8.3.3 Milioni/miliar<strong>di</strong> <strong>di</strong>…<br />

Nel corpus analizzato sono molto frequenti frasi con espressioni in cui un numerale è seguito da<br />

"milioni/miliar<strong>di</strong>" seguito ancora da un complemento <strong>di</strong> specificazione contenente un'unità <strong>di</strong><br />

misura. Questa situazione, in inglese, non può essere tradotta letteralmente. In inglese, infatti,<br />

l'espressione italiana<br />

139


Co<strong>di</strong>ce linea e Tema<br />

due miliar<strong>di</strong> <strong>di</strong> sterline<br />

deve essere tradotta<br />

two billion pounds.<br />

Per far questo è stata introdotta una regola <strong>di</strong> transfer per la cancellazione della preposizione <strong>di</strong><br />

in corrispondenza della situazione appena descritta. Occorre sottolineare che il buon funzionamento<br />

<strong>di</strong> questa regola <strong>di</strong> transfer non può prescindere dal corretto uso del semantic type relativo alle unità<br />

<strong>di</strong> misura. Come già descritto, attraverso l'uso della <strong>Treebank</strong> sono state inserite numerose<br />

informazioni semantiche che non possono che avere effetti positivi anche in questo contesto.<br />

8.3.4 Mesi<br />

Un'altra espressione piuttosto frequente nel corpus è l'informazione temporale espressa come<br />

nel mese <strong>di</strong> Marzo<br />

Anche a questa forma non corrisponde una traduzione letterale, bensì:<br />

in March<br />

Per realizzare tale passaggio è stata inserita una regola <strong>di</strong> transfer che, riconosciuta la situazione,<br />

elimina i no<strong>di</strong> mese e <strong>di</strong>, e trasforma la preposizione articolata, che introduce il gruppo, in<br />

preposizione semplice.<br />

8.4 Mo<strong>di</strong>fiche all'interfaccia software<br />

Nel corpus esaminato è molto frequente la presenza <strong>di</strong> forme legate da un trattino come<br />

part-time, ma anche come <strong>di</strong>ritto-dovere. Risulta evidente che le due situazioni non possono essere<br />

trattate nella stessa maniera: nel primo caso i due termini risultano privi <strong>di</strong> significato in italiano se<br />

usati singolarmente, nel secondo sono forme in<strong>di</strong>pendenti che vengono combinate per sottolineare<br />

una particolare circostanza.<br />

Per trattare il primo caso sono state inserite delle opportune entrate nel <strong>di</strong>zionario, per le altre<br />

viene ammessa la costruzione <strong>di</strong> una forma come composizione <strong>di</strong> due. Inoltre, poiché le situazioni<br />

che possono presentarsi possono essere varie e strettamente legate al tipo <strong>di</strong> corpus, ci siamo resi<br />

conto che non sempre si può prevedere a priori il giusto comportamento. Si è quin<strong>di</strong> deciso <strong>di</strong><br />

mo<strong>di</strong>ficare l'interfaccia software, per permettere all'utente del sistema <strong>di</strong> traduzione <strong>di</strong> scegliere il<br />

trattamento più appropriato al testo in esame. Questa scelta è conseguenza dell'analisi dei testi: non<br />

in tutti viene utilizzata la stessa logica d'uso del trattino, che risulta strettamente legata alla<br />

sensibilità dell'autore.<br />

Il software è stato inoltre mo<strong>di</strong>ficato per permettere una valutazione oggettiva del lavoro svolto:<br />

all'utente vengono ora fornite delle informazioni relative agli alberi <strong>di</strong> analisi costruiti, come il<br />

numero <strong>di</strong> alberi non chiusi o le ambiguità non risolte.<br />

140


Co<strong>di</strong>ce linea e Tema<br />

8.5 Osservazioni<br />

8.5.1 Ricerche infruttuose<br />

In italiano un determinato introduttore può richiedere uno specifico modo verbale nella<br />

subor<strong>di</strong>nata che introduce.<br />

Conoscendo l'importanza <strong>di</strong> <strong>di</strong>sporre, per la costruzione della frase, dell'elenco completo <strong>di</strong> tali<br />

introduttori, abbiamo acceduto all'annotazione sintattica funzionale alla loro ricerca, secondo<br />

interrogazioni in grado <strong>di</strong> in<strong>di</strong>viduare due proposizioni, in cui la <strong>di</strong>pendente ha il verbo al<br />

congiuntivo e l'introduttore specificato:<br />

Tipo relazione: arg<br />

Testa verbale:<br />

POS: V<br />

Dipendente verbale :<br />

POS: V<br />

Introduttore: not""<br />

MFEAT: ..C. 7<br />

ma nella parte <strong>di</strong> corpus selezionata abbiamo riscontrato pochissime situazioni <strong>di</strong> quel tipo e tutte<br />

già previste. E' stata sottolineata questa situazione per evidenziare come i risultati raggiunti siano<br />

strettamente legati al corpus esaminato e, quin<strong>di</strong>, alle situazioni in esso presenti. Nelle specifiche <strong>di</strong><br />

annotazione della <strong>Treebank</strong> erano previste contesti <strong>di</strong> annotazione a noi utili: solo al momento<br />

dell'elaborazione delle informazioni è risultata l'assenza <strong>di</strong> tali informazioni nella porzione <strong>di</strong><br />

corpus da noi selezionato su criteri <strong>di</strong> tipo Relational Data Analysis (RDA).<br />

8.5.2 Analisi del lavoro svolto<br />

La parte <strong>di</strong> verifica dei miglioramenti ottenuti in <strong>di</strong>pendenza delle mo<strong>di</strong>fiche apportate verrà<br />

realizzata durante la successiva linea, ma alcune osservazioni possono già essere effettuate adesso<br />

sulla base delle analisi svolte durante l'attuale lavoro <strong>di</strong> raffinamento.<br />

Probabilmente il miglioramento che attraverso misurazioni potremo ottenere nella fase finale non<br />

sarà proporzionale al lavoro svolto, o meglio, lo sarà in una porzione <strong>di</strong> corpus, ma non su tutto: nei<br />

testi selezionati, infatti, ci sono delle frasi molto lunghe che si articolano in numerose subor<strong>di</strong>nate<br />

ricche <strong>di</strong> incisi. Siamo convinti che, in tali frasi, possano presentarsi dei miglioramenti, specie a<br />

livello dei singoli sottoalberi, ma immaginiamo che <strong>di</strong>fficilmente possano essere costruiti degli<br />

alberi <strong>di</strong> completa copertura. Su frasi più lineari e ben costruite dovrebbero, invece, esserci dei<br />

miglioramenti certo consistenti.<br />

7 con ..C. si in<strong>di</strong>cano tutte quelle sequenze <strong>di</strong> 4 caratteri aventi in terza posizione una C e un qualunque carattere<br />

nelle altre posizioni. In questo caso significa che il verbo deve essere <strong>di</strong> modo congiuntivo<br />

141


Co<strong>di</strong>ce linea e Tema<br />

Sin qui, la vali<strong>di</strong>tà della <strong>Treebank</strong> come sorgente <strong>di</strong> informazione sembra indubbia, avendo<br />

consentito <strong>di</strong> estrarre un gran numero <strong>di</strong> informazioni, sia <strong>di</strong> tipo previsto che imprevisto, scaturito<br />

dall'esame concreto della risorsa. Indubbiamente, dopo la comparazione dei risultati raggiunti con il<br />

sistema <strong>di</strong> traduzione mo<strong>di</strong>ficato, si potrà articolare meglio un <strong>di</strong>scorso <strong>di</strong> valutazione. Quello che si<br />

può già <strong>di</strong>re ora è che, dopo averla analizzata concretamente, possono nascere nuovi spunti e<br />

suggerimenti relativi al tipo delle annotazioni inserite.<br />

142


Co<strong>di</strong>ce linea e Tema<br />

Riferimenti bibliografici<br />

Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom<br />

(anche: http://www.hum.uva.nl/~ewn).<br />

Atkins B.T., J. Kegl, B. Levin, 1988, “Anatomy of a Verb Entry: from Linguistic Theory to<br />

Lexicographic Practice”, International Journal of Lexicography 1, pp. 84-126.<br />

Bémová A., J. Hajic, B. Hladká, J. Panenová, 1999, “Syntactic tagging of the The Prague<br />

dependency <strong>Treebank</strong>”, in Procee<strong>di</strong>ngs of the <strong>Treebank</strong>s workshop, Journée(s) ATALA sur les<br />

corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris,<br />

<strong>di</strong>sponibili all’in<strong>di</strong>rizzo http://www.biomath.jussieu.fr/ATALA/.<br />

Bresnan J., (ed.), 1982, The Mental Representation of Grammatical Relations, The MIT Press,<br />

Cambridge-Massachusetts.<br />

Calzolari N., O. Corazzari, (in corso <strong>di</strong> pubblicazione), “Senseval/Romanseval: the framework for<br />

Italian”, Computers and the Humanities, Kluwer Academic Publishers, Dordrecht.<br />

Calzolari N., O. Corazzari, M. Monachini, A. Roventini, 1996, “Speech Act and Perception Verbs:<br />

Generalizations and Contrastive Aspects”, in EURALEX-96 Procee<strong>di</strong>ngs, Goteborg University,<br />

pp. 73-83.<br />

Calzolari N., M. Baker, J.G. Kruyt (eds.), 1995, Towards a network of European Reference<br />

Corpora, Report of the NERC Consortium Feasibility Study, Pisa, Giar<strong>di</strong>ni.<br />

Carroll J., E. Briscoe, 1996, “Apportioning development effort in a probabilistic LR parsing system<br />

through evaluation”, in Procee<strong>di</strong>ngs of the ACL/SIGDAT Conference on Empirical Methods in<br />

Natural Language Processing, University of Pennsylvania, Philadelphia, PA, pp. 92-100.<br />

Carroll J., E. Briscoe, A. Sanfilippo, 1998, “Parser Evaluation: a Survey and a New Proposal”, in<br />

Procee<strong>di</strong>ngs of the First International Conference on Language Resources and Evaluation,<br />

Granada, Spain, 28-30 May, pp. 447-454.<br />

Casadei F., 1996, Metafore ed espressioni i<strong>di</strong>omatiche, Universita’ <strong>di</strong> Roma, La Sapienza,<br />

Dipartimento <strong>di</strong> Scienze del Linguaggio, Roma, Bulzoni E<strong>di</strong>tore.<br />

Chomsky N., 1986, Barriers, MIT Press, Cambridge MA.<br />

Corazzari O., 1992, Phraseological Units, Pisa, NERC Working Paper, NERC-92-WP8-68.<br />

Corazzari O., N. Calzolari, A. Zampolli, 1999, ELSNET: Internal Report, ILC, Pisa.<br />

Corazzari O., M. Monachini, 1995, ELSNET: Italian Corpus Sample, ILC-CNR, Pisa.<br />

Cruse D.A., 1986, Lexical Semantics, Cambridge, Cambridge University Press.<br />

Danlos L., 1981, “La morphosyntaxe des espressions figées”, Langages 63, Parigi, Larousse.<br />

Danlos L., 1988, “Les phrases à verbe support etre Prép”, Langages 90, Parigi, Larousse.<br />

143


Co<strong>di</strong>ce linea e Tema<br />

Delmonte R. (1999), From Shallow Parsing to Functional Structure, in Atti del Workshop AI*IA<br />

"Elaborazione del Linguaggio e Riconoscimento del Parlato", IRST Trento, pp.8-19.<br />

Delmonte R. (2000), Shallow Parsing And Functional Structure In Italian Corpora, LREC-2000<br />

Procee<strong>di</strong>ngs, Athens, June 2000.<br />

Fass D., 1991, “met*: A Method for Discriminating Metonymy and Metaphor by Computer”,<br />

Computational Linguistics 17(1), pp. 49-90.<br />

Federici S., S. Montemagni, V. Pirrelli, 1999, “SENSE: an Analogy-based Word Sense<br />

Disambiguation System”, in corso <strong>di</strong> pubblicazione in M. Light, M. Palmer (eds.), Special<br />

Issue of Natural Language Engineering on Lexical Semantic Tagging.<br />

Fellbaum C., J. Grabowski, S. Landes, 1998 “Performance and Confidence in a Semantic<br />

Annotation Task”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press.<br />

Gale A. W., K. W. Church, D. Yarowsky, 1992, “A Method for Disambiguating Word Senses in a<br />

Large Corpus”, Computers and the Humanities 26, pp. 415-439.<br />

Garside R., G. Leech, G. Sampson, (a cura <strong>di</strong>), 1987, The computational analysis of English. A<br />

corpus-based approach, London, Longman.<br />

Garzanti, 1994, Dizionario Garzanti <strong>di</strong> Italiano, Milano, Garzanti E<strong>di</strong>tore.<br />

Goggi S., L. Biagini, E. Picchi, R. Bin<strong>di</strong>, S. Rossi, R. Marinelli, 1997, Italian Corpus<br />

Documentation, LE-PAROLE WP2.11, ILC, Pisa.<br />

Greenbaum S. (ed.), 1996, English Worldwide: The International Corpus of English, Oxford,<br />

Clarendon Press.<br />

Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Boston, Kluwer Academic<br />

Publishers.<br />

Gross M., 1985, “Sur les determinants dans les espressions figées”, Langages 79, Parigi, Larousse.<br />

Gross M., 1986, “The Representation of Compound Words”, in 11 th International Conference on<br />

Computational Linguistics, Procee<strong>di</strong>ngs of Coling ‘86, Bonn.<br />

Gross M., 1988, “Les limites de la phrase figées”, Langages 90, Parigi, Larousse.<br />

Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi.<br />

Hanks P., 1996, “Contextual Dependency and Lexical Sets”, International Journal of Corpus<br />

Linguistics 1, pp. 75-98.<br />

Hudson R., 1984, Word Grammar, Basil Blackwell, Oxford.<br />

Hudson R., 1988, “The Linguistic Foundations for Lexical Research and Dictionary Design”,<br />

International Journal of Lexicography, 1 (4), pp. 287-312.<br />

Karlsson, F., Voutilainen, A., Heikkila, J. e A. Anttila (eds.). 1995. Constraint Grammar, a<br />

language-independent system for parsing unconstrained text. Berlin e New York: Mouton de<br />

Gruyter.<br />

144


Co<strong>di</strong>ce linea e Tema<br />

Kilgarriff A., 1993, “Dictionary word sense <strong>di</strong>stinctions: An enquiry into their nature”, Computers<br />

and the Humanities 26, pp. 365-387.<br />

Landes S., C. Leacock, R. I. Tengi, 1998, “Buil<strong>di</strong>ng Semantic Concordances”, in Wordnet, An<br />

Electronic Lexical Database, Cambridge, MIT Press.<br />

Leech G., R. Barnett, P. Kahrel, 1996, Guidelines for the standar<strong>di</strong>zation of syntactic annotation of<br />

corpora, EAGLES Document EAG-TCWG-SPT/P.<br />

Leech G., R. Garside, 1991, “Running a grammar factory: the production of syntactically analysed<br />

corpora or ‘treebanks’“, in Johansson S., Stenstrom A.B., English Computer Corpora: Selected<br />

Papers and Research Guide, Berlin, Mouton de Gruyter, pp. 15-32.<br />

Lenci, A., F. Busa, N. Ruimy, E. Gola, M. Monachini, N. Calzolari, A. Zampolli, El. Guimier, G.<br />

Recourcé, L. Humphreys, U. Von Rekovsky, A. Ogonowski, C. McCauley, W. Peters, I. Peters,<br />

M. Villegas (1998). ‘Specifications’, SIMPLE Work, Linguistic Deliverable D2.1, Pisa.<br />

Lenci A., S. Montemagni, V. Pirrelli, C. Soria, K. Netter, M. Rajman, 1999 a, Corpora for<br />

Evaluation, WP5, ELSE (Evaluation in Language and Speech Engineering), LE4-8340.<br />

Lenci A., S. Montemagni, V. Pirrelli, C. Soria, 1999 b, “FAME: a Functional Annotation Metascheme<br />

for Multimodal and Multi-lingual Parsing Evaluation”, in Procee<strong>di</strong>ng of the ACL99<br />

Workshop on Computer-Me<strong>di</strong>ated Language Assessment and Evaluation in Natural Language<br />

Processing, University of Maryland, June 22 nd .<br />

Lenci A., Montemagni S., Pirrelli V., Soria C., 2000. Where opposites meet. A Syntactic Metascheme<br />

for Corpus Annotation and Parsing Evaluation. LREC-2000 Procee<strong>di</strong>ngs, Athens, June<br />

2000.<br />

Lin D., 1998, “A dependency.based method for evaluating broad-coverage parsers”, Natural<br />

Language Engineering 4(2), pp. 97-114.<br />

Marciniak M., A. Mykowiecka, A. Przepiórkowski, A. Kupsc, 1999, “Construction of an HPSG<br />

treebank for Polish”, in Procee<strong>di</strong>ngs of the <strong>Treebank</strong>s workshop, Journée(s) ATALA sur les<br />

corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris,<br />

<strong>di</strong>sponibili all’in<strong>di</strong>rizzo http://www.biomath.jussieu.fr/ATALA/.<br />

Marcus M., M.A. Marcinkiewicz, B. Cantorini, 1993, “Buil<strong>di</strong>ng a Large Annotated Corpus of<br />

English: The Penn <strong>Treebank</strong>”, Computational Linguistics 19(2), pp. 313-330.<br />

Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K.<br />

Schasberger, 1994, “The Penn <strong>Treebank</strong>: Annotating pre<strong>di</strong>cate argument structure”, in<br />

Procee<strong>di</strong>ngs of the Human Language Technology Workshop, March 1994, Morgan Kaufman<br />

Publishers Inc., San Francisco, CA.<br />

MATE, 1998, Multilevel Annotation Tools Engineering, .<br />

Meyers A., K. Macleod, R. Grishman, 1994, “Standar<strong>di</strong>zation of the Complement Adjunct<br />

Distinction”, in Procee<strong>di</strong>ngs of COLING-94.<br />

Monachini M., 1995, ELM-IT: An Italian Typed Incarnation of The EAGLES Lexicon<br />

Morphosyntactic Specifications, Work in progress, ILC, Pisa.<br />

145


Co<strong>di</strong>ce linea e Tema<br />

Monachini, M, 1996 ELM-IT: EAGLES Specifications for Italian Morphosyntax Lexicon<br />

Specification and Classification Guidelines, EAGLES Report, Pisa.<br />

Monachini M., A. Roventini, A. Alonge, N. Calzolari, O. Corazzari, 1994, “Linguistic Analysis of<br />

Italian Perception and Speech Act Verbs”, DELIS Working Paper, ILC, Pisa.<br />

Montemagni S., 1990, Definition, General Features and Taxonomy of Multi Word Expressions,<br />

ILC, Pisa.<br />

Montemagni S., 1992, Syntactically annotated corpora: comparing the underlying annotation<br />

schemes, Technical Report NERC-67, ILC Pisa.<br />

Montemagni S., 1995, Subject and Object in Italian Sentence Processing, PhD Thesis, University<br />

of Manchester Institute of Science and Technology (UK), Centre for Computational<br />

Linguistics, Settembre 1995.<br />

Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Zampolli A., Fanciulli F.,<br />

Massetani M., Raffaelli R., Basili R., Pazienza M.T., Saracino D., Zanzotto F., Mana N.,<br />

Pianesi F., Delmonte R., 2000. The Italian Syntactic-Semantic <strong>Treebank</strong>: Architecture,<br />

Annotation, Tools and Evaluation. Procee<strong>di</strong>ngs of the COLING Workshop on "<strong>Linguistica</strong>lly<br />

Interpreted Corpora (LINC-2000)", Luxembourg, 6 August 2000, pp. 18-27.<br />

Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Lenci A., Zampolli A.,<br />

Fanciulli F., Massetani M., Raffaelli R., Basili R., Pazienza M.T., Saracino D., Zanzotto F.,<br />

Mana N., Pianesi F., Delmonte R., 2001 "Buil<strong>di</strong>ng the Italian Syntactic-Semantic <strong>Treebank</strong>", in<br />

corso <strong>di</strong> stampa in Anne Abeillé (a cura <strong>di</strong>), Buil<strong>di</strong>ng and using syntactically annoted corpora,<br />

Language and Speech series, Kluwer, Dordrecht; anche <strong>di</strong>sponibile all'in<strong>di</strong>rizzo<br />

http://www.talana.linguist.jussieu.fr/~nbarrier/treeBank/toc.html.<br />

Moon R., 1987, “The Analysis of Meaning, in Looking Up, An Account of the Cobuilt Project”, in<br />

Lexical Computing, Birmingham, Collins ELT.<br />

Renzi L. (a cura <strong>di</strong>), 1988, Grande grammatica italiana <strong>di</strong> consultazione, Vol.I, Bologna, Il Mulino.<br />

Renzi L., Salvi G. (a cura <strong>di</strong>), 1991, Grande grammatica italiana <strong>di</strong> consultazione, vol. 2, Il<br />

Mulino, Bologna.<br />

Ruimy N., O. Corazzari, 1991, Be Prep X Frozen Expressions, Eurotra n.13, ILC, Pisa.<br />

Palazzi, Folena, 1995, Dizionario della lingua italiana.<br />

PAROLE, 1996-1998, Preparatory Action for Linguistic Resources Organization for Language<br />

Engineering, LE-4017, Language Engineering.<br />

Picchi E., 1994, “Pi-Tagger: A tagger and lemmatizer for Italian”, in EURALEX-94 Procee<strong>di</strong>ngs,<br />

Amsterdam.<br />

Sampson G., 1987, “The grammatical database and parsing system”, in Garside R., Leech G., Sampson<br />

G., (a cura <strong>di</strong>), pp. 82-96.<br />

Sampson G., 1995, English for the Computer, Oxford, Clarendon Press.<br />

146


Co<strong>di</strong>ce linea e Tema<br />

Sampson G., 1998, A proposal for improving the measurement of parse accuracy, manoscritto non<br />

pubblicato.<br />

Samvelian P., 1990, Les constructions etre Prep X: Formalisation et traitement dans le cadre du<br />

project EUROTRA, Memoire de DEA, Universite Paris 7, Parigi.<br />

Sandoval M., A. Lopez Ruesga, S. e F. Sanchez León, 1999, Spanish Tree Bank: Specifications,<br />

Version 4, Manoscritto.<br />

Scalise S., 1995, “La formazione delle parole”, in Grande grammatica italiana <strong>di</strong> consultazione,<br />

Vol.III, pp. 471-514, Bologna, Il Mulino.<br />

Schwarze C., 1995, Grammatik der italienischen Sprache 2. verbesserte Auflage, Max Niemeyer<br />

Verlag, Tubingen.<br />

Sinclair J., 1996, “The Empty Lexicon”, International Journal of Corpus Linguistics 1, pp. 99-119.<br />

Somers H., 1984, “On the vali<strong>di</strong>ty of the Complement-Adjunct Distinction in Valency Grammar”,<br />

in Linguistics, 22, pp. 507-530.<br />

SPARKLE, Shallow Parsing and Knowledge Extraction for Language Engineering,<br />

.<br />

Ten Hacken P., H. Maas, B. Maegaard, 1991, “Dictionaries in Eurotra”, in The Eurotra Linguistic<br />

Specifications, C. Copeland, J. Durand, S. Krawer, B. Maegaard, (eds.), Luxembourg,<br />

Commission of the European Communities.<br />

Thorsten B., S. Wojciech, H. Uszkoreit, 1999, “Syntactic annotation of a German newspaper<br />

corpus”, in Procee<strong>di</strong>ngs of the <strong>Treebank</strong>s workshop, Journée(s) ATALA sur les corpus annotés<br />

pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, <strong>di</strong>sponibili<br />

all’in<strong>di</strong>rizzo http://www.biomath.jussieu.fr/ATALA/.<br />

Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi.<br />

Voorhees E. M., 1998, “Using WordNet for Text Retrieval”, in Wordnet, An Electronic Lexical<br />

Database, Cambridge, MIT Press.<br />

Zingarelli, 1997, Lo Zingarelli 1997 Vocabolario della Lingua Italiana, Bologna, Zanichelli<br />

E<strong>di</strong>tore.<br />

147


Co<strong>di</strong>ce linea e Tema<br />

Appen<strong>di</strong>ci<br />

1. Annotazione a costituenti: rappresentazione in XML<br />

2. Annotazione funzionale: rappresentazione in XML<br />

3. Annotazione semantico-lessicale: rappresentazione in XML<br />

148


Co<strong>di</strong>ce linea e Tema<br />

Appen<strong>di</strong>ce 1 - Annotazione a costituenti: rappresentazione in XML<br />

1 Dtd<br />

La formalizzazione dell’annotazione a costituenti, come quella degli altri livelli <strong>di</strong> annotazione,<br />

viene prodotta sulla base del linguaggio <strong>di</strong> markup XML (eXstensible Markup Language). Il<br />

linguaggio XML prevede una DTD (Document Type Definition), ossia un file <strong>di</strong> riferimento per la<br />

co<strong>di</strong>fica dei dati, che contiene al suo interno le regole <strong>di</strong> definizione dei tag e in<strong>di</strong>ca gli elementi ed<br />

il loro or<strong>di</strong>ne all’interno del documento XML. Tale architettura prevede che la co<strong>di</strong>fica avvenga per<br />

frase (elemento ). Gli elementi contengono, incassati al loro interno, o uno o più<br />

elementi o uno o più elementi . A loro volta gli elementi contengono,<br />

incassati al loro interno, o uno o più elementi o uno o più elementi . Questi ultimi<br />

elementi puntano in maniera in<strong>di</strong>retta alle occorrenze lessicali nel corrispondente file morfologico.<br />

Ricor<strong>di</strong>amo che l’annotazione a costituenti, come anche quella funzionale e quella semantica,<br />

presuppone un livello <strong>di</strong> annotazione morfo-sintattica (la cui DTD è documentata nel Rapporto<br />

della Linea 1.2). Questo vuol <strong>di</strong>re che nei files <strong>di</strong> annotazione a costituenti, come anche nei files<br />

relativi agli altri tipi <strong>di</strong> annotazione, troviamo dei puntatori o identificatori, co<strong>di</strong>ficati come tratti, i<br />

quali dal file <strong>di</strong> annotazione puntano al file con l’annotazione morfosintattica. Ciò è illustrato dagli<br />

esempi che seguono.<br />

1.1 L’elemento <br />

Questo elemento può contenere al suo interno uno o più elementi , oppure uno o più<br />

elementi . L’elemento è descritto dai seguenti tratti:<br />

id<br />

init<br />

end<br />

<br />

[ASCII]<br />

[ASCII]<br />

[ASCII]<br />

Il tratto id è un tratto <strong>di</strong> identificazione e associa ciascun elemento ad una stringa <strong>di</strong><br />

caratteri [ASCII] i quali in<strong>di</strong>cano il file morfologico e la singola frase, interna ad esso, a cui<br />

l’elemento in considerazione fa riferimento.<br />

Il tratto init è un tratto i cui possibili valori sono identificatori <strong>di</strong> parole morfologiche, in questo<br />

caso specifico il valore del tratto init identifica la prima parola morfologica della frase che stiamo<br />

trattando.<br />

Il tratto end è un tratto i cui possibili valori sono identificatori <strong>di</strong> parole morfologiche, in questo<br />

caso specifico il valore del tratto end identifica l’ultima parola morfologica della frase che stiamo<br />

trattando.<br />

Riportiamo qui <strong>di</strong> seguito un esempio che mette in parallelo il file morfologico <strong>di</strong> una frase ed il<br />

file <strong>di</strong> annotazione a costituenti della stessa frase:<br />

149


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex. 00 Il tesoro mette sul mercato il 51% a 2.200-2.700 lire per<br />

azione.<br />

Il<br />

Tesoro<br />

mette<br />

sul<br />

mercato<br />

il<br />

51%<br />

a<br />

2.200-2.700<br />

lire<br />

per<br />

azione<br />

.<br />

mword.xml<br />

cost.xml<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

150


Co<strong>di</strong>ce linea e Tema<br />

1.2 L’elemento <br />

L’elemento , corrispondente al costituente frasale, può contenere al suo interno o uno o<br />

più elementi o uno o più elementi .<br />

Segue un esempio dove abbiamo evidenziato gli elementi insieme al file morfologico <strong>di</strong><br />

riferimento.<br />

Xml Ex. 01 Bruxelles all’Italia: urgente ridurre il deficit.<br />

Bruxelles<br />

all’<br />

Italia<br />

:<br />

urgente<br />

ridurre<br />

il<br />

deficit<br />

.<br />

mword.xml<br />

cost.xml<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

151


Co<strong>di</strong>ce linea e Tema<br />

L’elemento nodo è descritto da un unico tratto, il tratto type. L’inventario dei suoi possibili<br />

valori, <strong>di</strong>chiarati al livello <strong>di</strong> DTD come <strong>di</strong> tipo CDATA, è riportato nella sezione sulle specifiche<br />

<strong>di</strong> annotazione per il livello a costituenti (sezione 4.2).<br />

type<br />

<br />

CDATA<br />

Xml Ex. 02 Bruxelles all’Italia: urgente ridurre il deficit.<br />

…<br />

il<br />

deficit<br />

…<br />

…<br />

<br />

<br />

<br />

<br />

…<br />

mword.xml<br />

cost.xml<br />

1.3 L’elemento <br />

L’elemento ha solamente un attributo, mw_id. Il tratto mw_id è un tratto <strong>di</strong><br />

identificazione e associa ciascun elemento ad una stringa <strong>di</strong> caratteri [ASCII] i quali<br />

in<strong>di</strong>cano la parola morfologica a cui l’elemento in considerazione fa riferimento.<br />

mw_id<br />

<br />

[ASCII]<br />

Xml Ex. 03 SERVIZI.<br />

SERVIZI<br />

.<br />

mword.xml<br />

cost.xml<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

152


Co<strong>di</strong>ce linea e Tema<br />

Appen<strong>di</strong>ce 2 - Annotazione funzionale: rappresentazione in XML<br />

2 DTD<br />

Al livello funzionale, la co<strong>di</strong>fica XML dei dati annotati avviene per frase. L’unità minima <strong>di</strong><br />

annotazione è costituita dalla frase, designata nella DTD dall’elemento .<br />

Ogni elemento può contenere, al suo interno, la lista dei partecipanti alle<br />

relazioni (con le relative proprietà) seguita dalla lista delle relazioni funzionali tra i partecipanti,<br />

corrispondenti rispettivamente agli elementi <strong>di</strong> tipo e <strong>di</strong> tipo . Gli elementi<br />

puntano alle relative parole morfologiche nel file <strong>di</strong> input con l’annotazione morfosintattica;<br />

gli elementi <strong>di</strong> tipo descrivono le relazioni funzionali tra i vari elementi <strong>di</strong><br />

tipo .<br />

Gli elementi per questo livello <strong>di</strong> annotazione sono ricapitolati <strong>di</strong> seguito, mentre per la<br />

descrizione dei tratti associati ai vari elementi riman<strong>di</strong>amo alle sezioni successive:<br />

<br />

<br />

<br />

<br />

2.1 L’elemento (partecipante)<br />

Questo elemento descrive il partecipante in una qualsiasi relazione funzionale. La co<strong>di</strong>fica<br />

dell’elemento presuppone l’annotazione morfo-sintattica del testo. Questo vuol <strong>di</strong>re, nel<br />

dettaglio, che tramite la co<strong>di</strong>fica del tratto dell’elemento , lo stesso elemento<br />

punta <strong>di</strong>rettamente alla corrispondente parola morfologica (per l’architettura modulare<br />

della <strong>Treebank</strong> <strong>di</strong> SI-TAL si rinvia al Rapporto della Linea 1.2). Diamo <strong>di</strong> seguito una<br />

esemplificazione <strong>di</strong> quanto detto:<br />

Xml Ex.00 I due malavitosi sono stati spesso segnalati in <strong>di</strong>verse occasioni<br />

mword.xml<br />

I<br />

due<br />

malavitosi<br />

sono<br />

stati<br />

spesso<br />

segnalati<br />

in<br />

<strong>di</strong>verse<br />

occasioni<br />

.<br />

funct.xml<br />

<br />

153


Co<strong>di</strong>ce linea e Tema<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Un elemento <strong>di</strong> tipo è descritto dai seguenti tratti: quantificazione, car<strong>di</strong>nalita,<br />

definitezza, aux, perifra, introdep, caso, status, ruolo, modo, <strong>di</strong>at, syn_form,<br />

reflex, pers, num, gen, introsim, partec_id.<br />

<br />

quantificazione<br />

car<strong>di</strong>nalita<br />

definitezza<br />

aux<br />

perifra<br />

introdep<br />

caso<br />

status<br />

ruolo<br />

modo<br />

CDATA<br />

CDATA<br />

CDATA<br />

CDATA<br />

CDATA<br />

CDATA<br />

dativo, accusativo<br />

aperto, chiuso<br />

agente, locativo, temporale<br />

comparativo, ambito,<br />

superlativo<br />

gerun<strong>di</strong>o, part_pass,inf, partic.pres<br />

CDATA<br />

<strong>di</strong>at<br />

syn_form<br />

CDATA<br />

reflex<br />

CDATA<br />

pers 1, 2, 3<br />

num<br />

sing, plur<br />

gen<br />

mas, fem<br />

introsim<br />

CDATA<br />

partec_id<br />

[ASCII]<br />

href<br />

<br />

154


Co<strong>di</strong>ce linea e Tema<br />

In quanto segue, riportiamo una esemplificazione <strong>di</strong> ogni tratto. Per una <strong>di</strong>scussione dettagliata<br />

dei tratti associati ai partecipanti ad una relazione funzionale si rinvia alle sezioni 5.1.1.1.2 e<br />

5.1.1.2.1.<br />

2.1.1 quantificazione<br />

Il tratto quantificazione viene utilizzato nei casi in cui un partecipante sia quantificato. Il tratto<br />

quantificazione ha come possibili valori CDATA, ossia qualsiasi stringa <strong>di</strong> testo.<br />

Xml Ex. 01 Ho visto molti gatti<br />

mword.xml<br />

Ho<br />

visto<br />

molti<br />

gatti<br />

funct.xml<br />

…<br />

<br />

…<br />

2.1.2 car<strong>di</strong>nalita<br />

Il tratto car<strong>di</strong>nalita viene utilizzato nei casi un cui un partecipante abbia una certa car<strong>di</strong>nalità. Il<br />

tratto car<strong>di</strong>nalita ha come valore CDATA, ossia qualsiasi stringa <strong>di</strong> testo.<br />

Xml Ex. 02 Ho visto due gatti<br />

Ho<br />

visto<br />

due<br />

gatti<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

…<br />

2.1.3 definitezza<br />

Il tratto definitezza viene utilizzato per descrivere la definitezza <strong>di</strong> un partecipante. L’inventario<br />

dei possibili valori associati al tratto definitezza è riportato nella sezione 5.1.1.1.2.3. sulle<br />

specifiche <strong>di</strong> annotazione per il livello funzionale (al livello <strong>di</strong> DTD sono <strong>di</strong>chiarati come <strong>di</strong> tipo<br />

CDATA).<br />

155


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex. 03 Ho visto il gatto<br />

Ho<br />

visto<br />

il<br />

gatto<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

…<br />

2.1.4 aux<br />

aux viene usato nei casi in cui un partecipante verbale occorra in costruzioni perifrastiche con un<br />

verbo ausiliare. Possibili valori sono essere e avere (al livello <strong>di</strong> DTD sono <strong>di</strong>chiarati come<br />

CDATA). Cfr sezione 5.1.1.1.2.3.<br />

Xml Ex. 04 Ho visto i gatti<br />

Ho<br />

visto<br />

i<br />

gatti<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

…<br />

2.1.5 perifra<br />

Il tratto perifra viene utilizzato nei casi in cui un partecipante verbale sia utilizzato in<br />

costruzioni passive con essere o venire, e nei casi in cui un partecipante verbale sia utilizzato in<br />

costrutti modali e aspettuali. I possibili valori, <strong>di</strong>chiarati al livello <strong>di</strong> DTD come CDATA, sono<br />

elencati nella sezione 5.1.1.1.2.3.<br />

Xml Ex. 05 Devono arrivare domani<br />

mword.xml<br />

Devono<br />

arrivare<br />

domani<br />

funct.xml<br />

…<br />

<br />

…<br />

156


Co<strong>di</strong>ce linea e Tema<br />

2.1.6 introdep<br />

Il tratto introdep è usato per specificare l’elemento grammaticale che “introduce” un <strong>di</strong>pendente<br />

che è parte <strong>di</strong> una delle seguenti relazioni funzionali: <strong>di</strong>p; sogg; comp; mod; arg; pred;<br />

non_pred; ogg_d; obl. L’insieme dei suoi possibili valori è aperto (ed è <strong>di</strong>chiarato come<br />

CDATA nella DTD).<br />

Xml Ex.06 Camminava mentre parlava<br />

mword.xml<br />

Camminava<br />

mentre<br />

parlava<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

2.1.7 caso<br />

Il tratto <strong>di</strong> caso è usato nella descrizione <strong>di</strong> <strong>di</strong>pendenti <strong>di</strong> tipo pronominale. I suoi possibili valori<br />

sono: dativo e accusativo.<br />

Xml Ex.07 gli parlo domani<br />

mword.xml<br />

gli<br />

parlo<br />

domani<br />

funct.xml<br />

…<br />

<br />

…<br />

2.1.8 status<br />

Il tratto status è associato a partecipanti <strong>di</strong> forma frasale ed è usato per <strong>di</strong>scriminare tra soggetti<br />

e complementi frasali con la valenza soggetto saturata e quelli con soggetto controllato da<br />

<strong>di</strong>pendenze esterne. I possibili valori associati a questo tratto sono: aperto e chiuso. Cfr sezione<br />

5.1.1.1.2.1.<br />

Xml Ex.08 Giovanni decise <strong>di</strong> partire<br />

mword.xml<br />

Giovanni<br />

decise<br />

<strong>di</strong><br />

partire<br />

157


Co<strong>di</strong>ce linea e Tema<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

Xml Ex. 09 Giovanni <strong>di</strong>sse che Maria sarebbe partita domani<br />

mword.xml<br />

Giovanni<br />

<strong>di</strong>sse<br />

che<br />

Maria<br />

sarebbe<br />

partita<br />

domani<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

2.1.9 ruolo<br />

Il tratto <strong>di</strong> ruolo è usato per fornire una caratterizzazione semantica alla relazione funzionale,<br />

ovvero per rendere esplicito, quando necessario, il ruolo semantico <strong>di</strong> un <strong>di</strong>pendente. Il tratto <strong>di</strong><br />

ruolo può assumere i valori <strong>di</strong> agente, temporale, locativo, compar(ativo), superlativo e<br />

ambito e viene assegnato per specializzare l’interpretazione della relazione funzionale, fornendo<br />

così elementi utili per l’interpretazione semantica della relazione in corso <strong>di</strong> annotazione (cfr<br />

sezione 5.1.1.1.2.1).<br />

Xml Ex. 10 è partito da Roma<br />

mword.xml<br />

è<br />

partito<br />

da<br />

Roma<br />

funct.xml<br />

…<br />

<br />

<br />

158


Co<strong>di</strong>ce linea e Tema<br />

<br />

…<br />

Xml Ex. 11 fu ucciso da Bruto<br />

mword.xml<br />

fu<br />

ucciso<br />

da<br />

Bruto<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

Xml Ex. 12 è partito da un’ora<br />

mword.xml<br />

è<br />

partito<br />

da<br />

un’<br />

ora<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

Xml Ex. 13 è più intelligente dell’insegnante<br />

mword.xml<br />

è<br />

più<br />

intelligente<br />

dell’<br />

insegnante<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

159


Co<strong>di</strong>ce linea e Tema<br />

<br />

<br />

…<br />

Xml Ex.14 è il più intelligente<br />

mword.xml<br />

è<br />

il<br />

più<br />

intelligente<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

…<br />

Xml Ex. 15 è il più intelligente della classe<br />

mword.xml<br />

è<br />

il<br />

più<br />

intelligente<br />

della<br />

classe<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

…<br />

2.1.10 modo<br />

Il tratto modo specificare il modo <strong>di</strong> partecipanti verbali. I suoi possibili valori sono riportati<br />

nella sezione 5.1.1.1.2.1.<br />

160


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex 16 Giovanni decise <strong>di</strong> partire<br />

mword.xml<br />

Giovanni<br />

decise<br />

<strong>di</strong><br />

partire<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

Xml Ex. 17 camminava parlando<br />

mword.xml<br />

camminava<br />

parlando<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

Xml Ex. 18 la cosa è ormai compiuta<br />

mword.xml<br />

la<br />

cosa<br />

è<br />

ormai<br />

compiuta<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

161


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex.19 il presidente uscente<br />

mword.xml<br />

il<br />

presidente<br />

uscente<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

2.1.11 <strong>di</strong>at<br />

Il tratto <strong>di</strong>at(esi) specifica la <strong>di</strong>atesi <strong>di</strong> un partecipante verbale. Suoi possibili valori sono<br />

riportati nella sezione 5.1.1.1.2.2.<br />

Xml Ex. 20 La Microsoft ha assunto Paolo<br />

mword.xml<br />

La<br />

Microsoft<br />

ha<br />

assunto<br />

Paolo<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

2.1.12 syn_form<br />

Il tratto syn_form specifica la forma personale/impersonale <strong>di</strong> un partecipante verbale. I suoi<br />

possibili valori sono riportati nella sezione 5.1.1.1.2.2.<br />

Xml Ex. 21 Bisogna <strong>di</strong>scutere <strong>di</strong> queste cose<br />

Bisogna<br />

<strong>di</strong>scutere<br />

<strong>di</strong><br />

queste<br />

cose<br />

mword.xml<br />

162


Co<strong>di</strong>ce linea e Tema<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

2.1.13 reflex<br />

Il tratto reflex specifica caratteristiche legate alla riflessività del partecipante verbale. L’insieme<br />

dei suoi possibili valori è riportato nella sezione 5.1.1.1.2.2.<br />

Xml Ex. 22 Mi compro una bicicletta<br />

mword.xml<br />

Mi<br />

compro<br />

una<br />

bicicletta<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

2.1.14 pers<br />

pers(ona) specifica la persona <strong>di</strong> un partecipante verbale. Suoi possibili valori sono 1, 2, 3.<br />

Xml Ex.23 Mario mangia una pizza<br />

mword.xml<br />

Mario<br />

mangia<br />

una<br />

pizza<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

163


Co<strong>di</strong>ce linea e Tema<br />

2.1.15 num<br />

num(ero) specifica il numero <strong>di</strong> un partecipante verbale. Suoi possibili valori sono: sing e plur.<br />

Xml Ex. 24 Mario mangia una pizza<br />

mword.xml<br />

Mario<br />

mangia<br />

una<br />

pizza<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

2.1.16 gen<br />

gen specifica, ove rilevante (ovvero con partecipanti verbali con <strong>di</strong>atesi passiva o me<strong>di</strong>a, oppure<br />

con partecipanti verbali che hanno tempi composti), il genere del partecipante verbale. Suoi<br />

possibili valori sono mas e fem.<br />

Xml Ex. 25 Maria è arrivata<br />

mword.xml<br />

Maria<br />

è<br />

arrivata<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

2.1.17 introsim<br />

Il tratto introsim è usato per specificare l’elemento grammaticale che “introduce” un<br />

partecipante che è parte <strong>di</strong> una delle seguenti relazioni funzionali: <strong>di</strong>sg, cong.<br />

Xml Ex. 26 Mangiare sia il pane che la frutta<br />

Mangiare<br />

sia<br />

il<br />

pane<br />

mword.xml<br />

164


Co<strong>di</strong>ce linea e Tema<br />

che<br />

la<br />

frutta<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

…<br />

2.1.18 partec_id<br />

Il tratto partec_id associa a ciascun partecipante un numero identificativo unico.<br />

Xml Ex. 27 Il ragazzo che Maria ha incontrato ieri<br />

mword.xml<br />

Il<br />

ragazzo<br />

che<br />

Maria<br />

ha<br />

incontrato<br />

ieri<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

2.1.19 href<br />

Questo tratto ha come possibili valori degli identificatori <strong>di</strong> parole morfologiche: infatti,<br />

l’annotazione funzionale presuppone un livello <strong>di</strong> annotazione morfo-sintattica. Livello al quale<br />

vengono co<strong>di</strong>ficati i tratti <strong>di</strong> POS (Part-Of-Speech), lemma ed altre caratteristiche morfologiche<br />

quale la persona, il numero, il tempo verbale, etc. I file <strong>di</strong> annotazione funzionale a livello Xml,<br />

tramite il tratto href, puntano alle singole parole morfologiche. In altri termini il tratto href punta<br />

dal file <strong>di</strong> annotazione funzionale Xml a quello morfologico Xml.<br />

Riportiamo qui <strong>di</strong> seguito un esempio <strong>di</strong> file morfologico (quello che segue è il reale file<br />

morfologico cui il livello <strong>di</strong> annotazione funzionale fa riferimento. I file morfologici che abbiamo<br />

mostrato fino a questo momento sono una versione semplificata <strong>di</strong> quello che segue, e sono stati<br />

adottati per semplificare la lettura del documento e non appesantire troppo la grafica):<br />

165


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex. 28 Londra. Gas dalla statua Evacuata la Tate Gallery<br />

<br />

…<br />

LONDRA <br />

.<br />

<br />

Gas <br />

dalla <br />

statua <br />

Evacuata <br />

la <br />

Tate <br />

Gallery <br />

.<br />

<br />

…<br />

Si noti che questo file morfologico contiene l’annotazione morfo-sintattica dell’articolo 001 del<br />

corpus del “Corriere della Sera” (), costituita da una sequenza <strong>di</strong><br />

parole morfologiche (mw) con <strong>di</strong>versi tratti ad esse associati.<br />

Il tratto href del file dell’annotazione funzionale viene co<strong>di</strong>ficato come qui <strong>di</strong> seguito:<br />

Xml Ex. 29 Londra. Gas dalla statua Evacuata la Tate Gallery<br />

funct.xml<br />

…<br />

<br />

…<br />

Ciò vuol <strong>di</strong>re che il , il cui tratto ha il valore<br />

“partec_001”, punta alla parola morfologica 001 (mw_001) che è contenuta<br />

all’interno del file morfologico 001 (morph001) del corpus del “Corriere della<br />

Sera” (cs).<br />

166


Co<strong>di</strong>ce linea e Tema<br />

2.2 L’elemento (relazione funzionale)<br />

Questo elemento, che ricor<strong>di</strong>amo essere incassato all’interno dell’elemento ,<br />

viene utilizzato per co<strong>di</strong>ficare le relazioni funzionali che compaiono all’interno dell’annotazione<br />

funzionale. Per quanto riguarda questo elemento è stata decisa la co<strong>di</strong>fica <strong>di</strong> tre tratti:<br />

relazionefunzionale, partidrefs, e relfunctid.<br />

relazionefunzionale<br />

partidrefs<br />

relfunctid<br />

<br />

<strong>di</strong>p, sogg, comp, mod, arg, pred, non_pred, ogg_d, obl,<br />

<strong>di</strong>sg, cong, legame, concat<br />

[ASCII]<br />

[ASCII]<br />

2.2.1 relazionefunzionale<br />

I possibili valori <strong>di</strong> questo tratto sono tutte le relazioni funzionali contemplate dalle specifiche <strong>di</strong><br />

annotazione, ossia: <strong>di</strong>p, sogg, comp, mod, arg, pred, non_pred, ogg_d, obl, <strong>di</strong>sg,<br />

cong, legame, concat. La tipologia delle relazioni funzionali previste per questo livello <strong>di</strong><br />

annotazione è riportata nelle sezioni 5.1.1.1, 5.1.1.2, 5.1.1.3 e 5.3.1.<br />

2.2.2 partidrefs<br />

Questo tratto ha come possibili valori coppie <strong>di</strong> puntatori interni allo stesso file XML. Questi<br />

puntatori in<strong>di</strong>cano coppie <strong>di</strong> partecipanti, precedentemente definiti in base ai tratti che abbiamo<br />

specificato, ossia quei partecipanti che prendono parte ad una determinata relazione funzionale,<br />

come possiamo vedere nel seguente esempio <strong>di</strong> annotazione.<br />

Xml Ex. 30 Io non so chi ha parlato<br />

Io<br />

non<br />

so<br />

chi<br />

ha<br />

parlato<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />


Co<strong>di</strong>ce linea e Tema<br />

partidrefs=”partec_003 partec_002”/><br />

<br />

<br />

…<br />

In questo caso possiamo vedere, per esempio, che la seconda relazione funzionale che<br />

incontriamo, la relazione “mod”, sussiste tra i due partecipanti che hanno come identificativo<br />

“partec_003” e “partec_002” rispettivamente.<br />

2.2.3 relfunctid<br />

Questo tratto ha come possibili valori dei numeri identificativi della relazione in considerazione.<br />

Xml Ex.31<br />

funct.xml<br />

…<br />

<br />

…<br />

In questo caso ve<strong>di</strong>amo che la relazione “mod”, che intercorre tra i partecipanti che hanno<br />

rispettivamente gli identificativi <strong>di</strong> “partec_002” e “partec_001”, ha come numero identificativo<br />

“r_001”, è cioè la prima relazione funzionale del file XML.<br />

2.3 L’elemento <br />

L’elemento costituisce l’unità <strong>di</strong> annotazione al livello funzionale. Al suo<br />

interno, può contenere uno o più elementi <strong>di</strong> tipo e uno o più elementi <strong>di</strong> tipo .<br />

L’elemento è descritto da un solo attributo, che altro non è che<br />

l’identificativo numerico.<br />

id<br />

functional_phrase<br />

[ASCII]<br />

Xml Ex. 32 Gli uomini parlano e sognano sempre <strong>di</strong> un miglioramento<br />

…<br />

<br />

…<br />

funct.xml<br />

168


Co<strong>di</strong>ce linea e Tema<br />

3 Esempi<br />

Segue una breve esemplificazione <strong>di</strong> annotazioni funzionali in XML.<br />

3.1 Costruzioni con verbo intransitivo<br />

Cfr. sezione 5.2.2.1.<br />

Xml Ex. 33 Gli uomini parlano e sognano sempre <strong>di</strong> un miglioramento<br />

Gli<br />

uomini<br />

parlano<br />

e<br />

sognano<br />

sempre<br />

<strong>di</strong><br />

un<br />

miglioramento<br />

…<br />

mword.xml<br />

funct.xml<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

169


Co<strong>di</strong>ce linea e Tema<br />

3.2 Costruzioni con verbo intransitivo inaccusativo<br />

Cfr. sezione 5.2.2.2.<br />

Xml Ex. 34 Gli studenti erano giunti nella zona alla spicciolata<br />

Gli<br />

studenti<br />

erano<br />

giunti<br />

nella<br />

zona<br />

alla<br />

spicciolata<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

Xml Ex. 35 Slitta la riunione, prevista per oggi, della cosiddetta<br />

commissione Sangalli<br />

Slitta<br />

la<br />

riunione<br />

prevista<br />

per<br />

oggi<br />

della<br />

cosiddetta<br />

commissione<br />

Sangalli<br />

mword.xml<br />

funct.xml<br />

…<br />


Co<strong>di</strong>ce linea e Tema<br />

partec_id=”partec_001”/><br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto<br />

Cfr. sezione 5.2.2.3.<br />

Xml Ex. 36 Carnevale ha sbagliato un gol quasi fatto<br />

Carnevale<br />

ha<br />

sbagliato<br />

un<br />

gol<br />

quasi<br />

fatto<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

171


Co<strong>di</strong>ce linea e Tema<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto<br />

Cfr. sezione 5.2.2.4.<br />

Xml EX. 37 Gullit ha <strong>di</strong>chiarato guerra alla stampa sportiva<br />

Gullit<br />

ha<br />

<strong>di</strong>chiarato<br />

guerra<br />

alla<br />

stampa<br />

sportiva<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />


Co<strong>di</strong>ce linea e Tema<br />

partidrefs=”partec_005 partec_006”/><br />

…<br />

3.5 Costruzioni con verbo transitivo con complemento obliquo<br />

Cfr. sezione 5.2.2.5.<br />

Xml Ex. 38 La Bimex importa prodotti dalla Union Carbide<br />

La<br />

Bimex<br />

importa<br />

prodotti<br />

dalla<br />

Union<br />

Carbide<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.6 Costruzioni passive<br />

Cfr. sezione 5.2.2.6.<br />

Xml Ex. 39 I due malavitosi sono stati spesso segnalati in <strong>di</strong>verse occasioni<br />

I<br />

due<br />

malavitosi<br />

sono<br />

stati<br />

mword.xml<br />

173


Co<strong>di</strong>ce linea e Tema<br />

spesso<br />

segnalati<br />

in<br />

<strong>di</strong>verse<br />

occasioni<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

Xml Ex. 40 L’accordo è stato firmato ieri al Pentagono dal ministro<br />

americano<br />

L’<br />

accordo<br />

è<br />

stato<br />

firmato<br />

ieri<br />

al<br />

Pentagono<br />

dal<br />

ministro<br />

americano<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

174


Co<strong>di</strong>ce linea e Tema<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.7 Costruzioni con completive sottocategorizzate<br />

Cfr.sezione 5.2.2.7.<br />

Xml Ex. 41 Giovanni ha visto Maria correre<br />

Giovanni<br />

ha<br />

visto<br />

Maria<br />

correre<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

175


Co<strong>di</strong>ce linea e Tema<br />

3.8 Costruzioni con interrogative in<strong>di</strong>rette<br />

Cfr. sezione5.2.2.8.<br />

Xml Ex. 56 Io non so chi ha parlato<br />

mword.xml<br />

Io<br />

non<br />

so<br />

chi<br />

ha<br />

parlato<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)<br />

Cfr. sezione 5.2.2.9.<br />

Xml Ex. 42 Gli evasori hanno aggre<strong>di</strong>to gli agenti <strong>di</strong> custo<strong>di</strong>a sparando<br />

all’impazzata<br />

Gli<br />

evasori<br />

hanno<br />

aggre<strong>di</strong>to<br />

gli<br />

agenti<br />

<strong>di</strong><br />

custo<strong>di</strong>a<br />

mword.xml<br />

176


Co<strong>di</strong>ce linea e Tema<br />

sparando<br />

all’<br />

impazzata<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto<br />

Cfr. sezione 5.2.2.10.<br />

Xml Ex. 43 Maria sembra felice<br />

Maria<br />

sembra<br />

felice<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

177


Co<strong>di</strong>ce linea e Tema<br />

<br />

<br />

<br />

3.11 Complementazione <strong>di</strong> nomi e aggettivi<br />

Cfr. sezione 5.2.2.11.<br />

Xml Ex. 44 Il Parlamento incomincerà un <strong>di</strong>battito sulla partecipazione al<br />

programma<br />

Il<br />

Parlamento<br />

incomincerà<br />

un<br />

<strong>di</strong>battito<br />

sulla<br />

partecipazione<br />

al<br />

programma<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

178


Co<strong>di</strong>ce linea e Tema<br />

3.12 Negazione<br />

Cfr. sezione 5.2.2.12.<br />

Xml Ex. 45 I bambini non devono guardare film violenti<br />

I<br />

bambini<br />

non<br />

devono<br />

guardare<br />

film<br />

violenti<br />

mword.xml<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.13 Costruzioni esistenziali<br />

Cfr. sezione 5.2.2.13.<br />

Xml Ex. 46 C’è una vespa nella mia camera<br />

C’<br />

è<br />

una<br />

vespa<br />

nella<br />

mia<br />

camera<br />

mword.xml<br />

179


Co<strong>di</strong>ce linea e Tema<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.14 Costruzioni coor<strong>di</strong>nate<br />

Cfr.sezione 5.2.3.<br />

Xml Ex. 47 I superstiti e i parenti delle vittime hanno espresso malumore<br />

per la scarcerazione<br />

mword.xml<br />

I<br />

superstiti<br />

e<br />

i<br />

parenti<br />

delle<br />

vittime<br />

hanno<br />

espresso<br />

malumore<br />

per<br />

la<br />

scarcerazione<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

180


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex. 48 La donna sbrigava le faccende <strong>di</strong> casa e doveva avere familiarità<br />

con i cani<br />

mword.xml<br />

La<br />

donna<br />

sbrigava<br />

le<br />

faccende<br />

<strong>di</strong><br />

casa<br />

e<br />

doveva<br />

avere<br />

confidenza<br />

con<br />

i<br />

cani<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

Xml Ex.49 Il fatturato complessivo delle società controllate e collegate è<br />

elevato<br />

mword.xml<br />

Il<br />

fatturato<br />

complessivo<br />

delle<br />

società<br />

controllate<br />

e<br />

collegate<br />

è<br />

elevato<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

181


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex. 50 Il mun<strong>di</strong>al <strong>di</strong> calcio termina con la finalissima <strong>di</strong> domenica sera<br />

e con i risultati conosciuti<br />

mword.xml<br />

Il<br />

mun<strong>di</strong>al<br />

<strong>di</strong><br />

calcio<br />

termina<br />

con<br />

la<br />

finalissima<br />

<strong>di</strong><br />

domenica<br />

sera<br />

e<br />

con<br />

i<br />

risultati<br />

conosciuti<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

Xml Ex. 51 …il bilancio ha ottenuto risultati <strong>di</strong> rilievo, in campo economico<br />

e sindacale, ma anche sul fronte dell’autonomia …<br />

mword.xml<br />

il<br />

bilancio<br />

ha<br />

ottenuto<br />

risultati<br />

<strong>di</strong><br />

rilievo<br />

in<br />

campo<br />

economico<br />

e<br />

sindacale<br />

ma<br />

anche<br />

sul<br />

fronte<br />

dell’<br />

autonomia<br />

funct.xml<br />

…<br />

<br />

…<br />

<br />

…<br />


Co<strong>di</strong>ce linea e Tema<br />

partidrefs=”partec_005 partec_009”/><br />

…<br />

3.15 Con<strong>di</strong>visione <strong>di</strong> complementi in costruzioni coor<strong>di</strong>nate<br />

Cfr. sezione 5.2.3.<br />

Xml Ex. 52 L’assemblea <strong>di</strong> ieri ha confermato Eugenio Scalari ed ha<br />

deliberato <strong>di</strong> aumentare il numero <strong>di</strong> consiglieri<br />

mword.xml<br />

L’<br />

assemblea<br />

<strong>di</strong><br />

ieri<br />

ha<br />

confermato<br />

Eugenio<br />

Scalfari<br />

ed<br />

ha<br />

deliberato<br />

<strong>di</strong><br />

aumentare<br />

il<br />

numero<br />

dei<br />

consiglieri<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

3.16 Ellissi del soggetto<br />

Cfr. sezione 5.2.4.1.<br />

Xml Ex. 53 Abbiamo visto l’opera nella piazza del paese<br />

Abbiamo<br />

visto<br />

l’<br />

opera<br />

nella<br />

piazza<br />

del<br />

paese<br />

mword.xml<br />

183


Co<strong>di</strong>ce linea e Tema<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

3.17 Ellissi del verbo<br />

Cfr. sezione 5.2.4.2.<br />

Xml Ex.54 Gli esempi sono scritti in corsivo, le glosse in stampatello<br />

mword.xml<br />

Gli<br />

esempi<br />

sono<br />

scritti<br />

in<br />

corsivo<br />

le<br />

glosse<br />

in<br />

stampatello<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

184


Co<strong>di</strong>ce linea e Tema<br />

3.18 Relazioni <strong>di</strong> coreferenza<br />

Cfr. sezione 5.2.5.<br />

Xml Ex. 55 Prost lascia la McLaren per una Ferrari che non cammina<br />

mword.xml<br />

Prost<br />

lascia<br />

la<br />

McLaren<br />

per<br />

una<br />

Ferrari<br />

che<br />

non<br />

cammina<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

3.19 Car<strong>di</strong>nalità complessa<br />

Cfr. sezione 5.2.10.2.<br />

Xml Ex. 57 Sfiora i 4 mila miliar<strong>di</strong><br />

mword.xml<br />

Sfiora<br />

i<br />

4<br />

mila<br />

miliar<strong>di</strong><br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

3.20 Nomi propri<br />

Cfr. sezione 5.2.10.3.<br />

185


Co<strong>di</strong>ce linea e Tema<br />

Xml Ex. 58 …Lamberto Dini…<br />

mword.xml<br />

Lamberto<br />

Dini<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

Xml Ex. 59 Carlo Azeglio Ciampi<br />

mword.xml<br />

Carlo<br />

Azeglio<br />

Ciampi<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

…<br />

<br />

<br />

…<br />

3.21 Costruzioni pre<strong>di</strong>cative particolari<br />

Cfr. sezione 5.2.6.<br />

Xml Ex. 60 Fare da autista<br />

mword.xml<br />

Fare<br />

da<br />

autista<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

186


Co<strong>di</strong>ce linea e Tema<br />

3.22 Costruzioni causative<br />

Cfr. sezione 5.2.7.<br />

Xml Ex. 61 Io ho fatto rispettare la legge<br />

mword.xml<br />

Io<br />

ho<br />

fatto<br />

rispettare<br />

la<br />

legge<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

…<br />

3.23 Costruzioni partitive<br />

Cfr. sezione 5.2.8.<br />

Xml Ex. 62 Dello stile impero sopravvive una certa indulgenza<br />

mword.xml<br />

Dello<br />

stile<br />

impero<br />

sopravvive<br />

una<br />

certa<br />

indulgenza<br />

funct.xml<br />

…<br />

<br />

<br />

…<br />

<br />

…<br />

187


Co<strong>di</strong>ce linea e Tema<br />

3.24 Superlativo assoluto<br />

Cfr. sezione 5.2.9.1.<br />

Xml Ex. 63 Paolo è il più bello<br />

mword.xml<br />

Paolo<br />

è<br />

il<br />

più<br />

bello<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

…<br />

<br />

<br />

…<br />

3.25 Superlativo relativo<br />

Cfr sezione 5.2.9.1.<br />

Xml Ex.64 Il ragazzo più prestigioso d’America<br />

mword.xml<br />

Il<br />

ragazzo<br />

più<br />

prestigioso<br />

d’<br />

America<br />

funct.xml<br />

…<br />

<br />

<br />

<br />

<br />

…<br />

<br />

188


Co<strong>di</strong>ce linea e Tema<br />

<br />

<br />

…<br />

189


Co<strong>di</strong>ce linea e Tema<br />

Appen<strong>di</strong>ce 3 - Annotazione semantico-lessicale: rappresentazione in<br />

XML<br />

1 Introduzione<br />

In questa sezione descriviamo il modo in cui viene rappresentato in formato XML lo schema per<br />

l’annotazione semantico-lessicale della <strong>Treebank</strong> <strong>di</strong> SI-TAL. L'annotazione semantico-lessicale<br />

implica gli aspetti seguenti:<br />

• identificazione delle unità <strong>di</strong> senso;<br />

• classificazione delle unità <strong>di</strong> senso in unità semplici (corrispondenti ad una singola parola<br />

ortografica), oppure <strong>di</strong> tipo complesso (espressioni polilessicali come composti, i<strong>di</strong>omi, ecc.) o<br />

<strong>di</strong> tipo titolo, ovvero parole sia semplici che complesse che occorrano nei titoli<br />

• assegnazione, per ogni tipo <strong>di</strong> unità semantica, <strong>di</strong> un numero <strong>di</strong> senso;<br />

• espressione <strong>di</strong> tratti <strong>di</strong> tipo semantico, che convoglino informazioni semantico-lessicali, oppure<br />

ad uso dell’annotatore;<br />

Nelle pagine seguenti descriviamo le strategie usate per rappresentare in XML queste<br />

informazioni.<br />

2 Elementi <strong>di</strong> markup<br />

Gli elementi <strong>di</strong> markup per l’annotazione semantica sono i seguenti, in or<strong>di</strong>ne gerarchico:<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Brevemente, il rapporto tra gli elementi <strong>di</strong> markup sta ad in<strong>di</strong>care che l’unità <strong>di</strong> analisi maggiore<br />

è un costrutto denominato “frase semantica” (), corrispondente all’insieme <strong>di</strong> unità<br />

semantiche o forme analizzate in una frase annotata al livello morfosintattico. Una frase semantica è<br />

costituita a sua volta da unità <strong>di</strong> senso, ulteriormente classificate in unità semantiche semplici<br />

, <strong>di</strong> tipo complesso , o <strong>di</strong> tipo titolo .<br />

2.1 <br />

Questo elemento è usato per marcare l’annotazione semantica del corrispondente morfologico <strong>di</strong><br />

una frase. Un elemento contiene un numero n <strong>di</strong> unità semantiche (semplici,<br />

190


Co<strong>di</strong>ce linea e Tema<br />

complesse o titolo), corrispondenti all’annotazione semantica delle parole semanticamente piene<br />

che occorrono all’interno <strong>di</strong> quella determinata frase.<br />

Diamo <strong>di</strong> seguito una esemplificazione <strong>di</strong> quanto detto:<br />

cs-morph-015: (…) Non pago degli insulti, il corazziere avrebbe aggiunto anche la minaccia <strong>di</strong><br />

un attentato, parlando <strong>di</strong> una bomba pronta a far saltare in aria il capo dello Stato. Il nome del<br />

carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma) è “top secret”, ma la<br />

vicenda è stata denunciata alla magistratura e il procuratore militare Antonino Intelisano<br />

ha aperto un’inchiesta per il reato <strong>di</strong> offesa all’onore del Presidente della Repubblica.<br />

L’allarme è scattato alla fine della scorsa settimana. (…)<br />

sem.xml<br />

<br />

<br />

<br />

…<br />

<br />

L’elemento dell’annotazione riportata in esempio racchiude tutte le annotazioni<br />

semantiche relative alle parole semanticamente piene che occorrono nella frase n. 10 del file “cs-<br />

015”, come specificato dall’attributo id.<br />

2.2 :unità semantica semplice<br />

Questo elemento è usato per marcare una singola parola semanticamente piena. La co<strong>di</strong>fica<br />

dell’elemento presuppone il markup morfologico delle parole. Questo vuol <strong>di</strong>re, nel<br />

dettaglio, che tramite la co<strong>di</strong>fica del tratto dell’elemento , lo stesso elemento <br />

punta <strong>di</strong>rettamente alla corrispondente parola morfologica (analogamente a quanto spiegato per<br />

l’annotazione sintattica). L’elemento viene tecnicamente definito vuoto (empty), in quanto<br />

non contiene al suo interno degli elementi <strong>di</strong> livello gerarchico inferiore. L’esempio seguente<br />

riassume sinteticamente i tratti relativi alla rappresentazione delle unità semantiche semplici:<br />

10.cs-015: Il nome del carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma)<br />

è “top secret”, ma la vicenda è stata denunciata alla magistratura e il procuratore militare<br />

Antonino Intelisano ha aperto un’inchiesta per il reato <strong>di</strong> offesa all’onore del Presidente<br />

della Repubblica.<br />

cs.morph015.xml<br />

Il <br />

nome <br />

del <br />

carabiniere <br />

191


Co<strong>di</strong>ce linea e Tema<br />

(<br />

<br />

i <br />

corazzieri <br />

sono <br />

infatti <br />

un <br />

reparto <br />

speciale <br />

…<br />

10.cs-015.xml<br />

<br />

<br />

<br />

<br />

<br />

…<br />

<br />

I tratti pertinenti per la co<strong>di</strong>fica <strong>di</strong> un’unità semantica semplice sono i seguenti: ussid, href,<br />

dbref, numero_senso, tipolemma, alterazione, figurato, nome_proprio, commento, nota.<br />

Nell’esempio precedente sono state evidenziate le parole morfologiche corrispondenti alle unità<br />

semantiche semplici. Di seguito illustriamo brevemente il significato dei tratti associati all’elemento<br />

, rappresentati in XML come insieme <strong>di</strong> attributi sia obbligatori che opzionali.<br />

<br />

ussid<br />

href<br />

dbref<br />

numero_senso<br />

ID<br />

<br />

(gen|eco)<br />

CDATA<br />

192


Co<strong>di</strong>ce linea e Tema<br />

tipolemma<br />

alterazione<br />

figurato<br />

nome_proprio<br />

commento<br />

nota<br />

CDATA<br />

CDATA<br />

CDATA<br />

CDATA<br />

CDATA<br />

CDATA<br />

(CDATA nel linguaggio <strong>di</strong> markup XML in<strong>di</strong>ca qualsiasi tipo <strong>di</strong> stringa <strong>di</strong> testo)<br />

2.2.1 ussid<br />

L’attributo ussid serve per identificare univocamente l’unità semantica semplice all’interno<br />

dell’elemento . Il valore dell’attributo è un valore numerico inizializzato a zero.<br />

<br />

<br />

<br />

<br />

<br />

…<br />

<br />

10.cs-015.xml<br />

2.2.2 href<br />

L’attributo href è usato per identificare il corrispondente morfologico della parola annotata<br />

semanticamente. Il valore dell’attributo è sempre un identificatore <strong>di</strong> parola morfologica, ovvero un<br />

valore numerico che nel file <strong>di</strong> annotazione morfologica a sua volta identifica univocamente un<br />

elemento .<br />

<br />


Co<strong>di</strong>ce linea e Tema<br />

/><br />

<br />

<br />

<br />

…<br />

<br />

dbref="gen"<br />

numero_senso="4"<br />

ussid="0"<br />

href="mw_171"<br />

dbref="gen"<br />

numero_senso="1"<br />

ussid="1"<br />

href="mw_173"<br />

dbref="gen"<br />

numero_senso="1"<br />

ussid="2"<br />

href="mw_176"<br />

dbref="gen"<br />

numero_senso="1"<br />

ussid="3"<br />

href="mw_180"<br />

2.2.3 dbref<br />

L’attributo dbref serve per specificare l’appartenenza dell’unità semantica annotata ad una delle<br />

due componenti che costituiscono il complesso del corpus <strong>di</strong> <strong>Treebank</strong>. Il valore gen corrisponde<br />

alla componente generica (o IWN-Gen), quello eco alla componente economica (EcoWN); cfr<br />

sezione 6.2.1. L’attributo è opzionale.<br />

<br />

<br />

<br />

<br />


Co<strong>di</strong>ce linea e Tema<br />

href="mw_180"<br />

/><br />

…<br />

<br />

2.2.4 numero_senso<br />

L’attributo numero_senso contiene come valore un numero <strong>di</strong> senso presente in ItalWordNet (o<br />

una sequenza congiunta o <strong>di</strong>sgiunta <strong>di</strong> sensi quando più sensi <strong>di</strong> ItalWordNet possono essere<br />

applicati congiuntamente o <strong>di</strong>sgiuntamente alla stessa occorrenza). Altri valori possibili da associare<br />

all’attributo in esame sono etichette convenzionali la cui forma e significato sono ampiamente nella<br />

sezione 6.2.2. L’attributo deve essere obbligatoriamente specificato.<br />

<br />

<br />

<br />

<br />

<br />

…<br />

<br />

10.cs-015.xml<br />

2.2.5 tipolemma<br />

L’attributo tipolemma è usato per annotare informazione semantico-lessicale associata alla<br />

parola annotata, ad esempio se si tratti <strong>di</strong> un neologismo o <strong>di</strong> una forma <strong>di</strong>alettale. L’attributo è<br />

opzionale. Cfr sezione 6.2.9.<br />

2.2.6 alterazione<br />

L’attributo alterazione (opzionale) co<strong>di</strong>fica il grado <strong>di</strong> alterazione della forma annotata<br />

rispetto al lemma. Valori possibili dell’attributo sono etichette mnemoniche, definibili dall’utente.<br />

195


Co<strong>di</strong>ce linea e Tema<br />

Le etichette utilizzate durante l’annotazione <strong>di</strong> <strong>Treebank</strong> sono ad esempio <strong>di</strong>m (<strong>di</strong>minutivo), accr<br />

(accrescitivo), <strong>di</strong>spr (<strong>di</strong>spregiativo), vezz (vezzeggiativo), sup (superlativo), compar<br />

(comparativo), e alter (per tutti i casi <strong>di</strong>versi dai precedenti). Cfr sezione 6.2.5.<br />

2.2.7 figurato<br />

L’attributo figurato (opzionale) registra la presenza <strong>di</strong> un uso figurato non lessicalizzato del<br />

senso <strong>di</strong> una singola parola. Valori possibili dell’attributo sono etichette mnemoniche, definibili<br />

dall’utente. Le etichette utilizzate durante l’annotazione <strong>di</strong> <strong>Treebank</strong> sono ad esempio metaf (uso<br />

metaforico), meton (uso metonimico), fig (per tutti gli usi figurati <strong>di</strong>versi dai precedenti). Cfr<br />

sezione 6.2.6.<br />

cs-015.xml<br />

il <br />

procuratore <br />

militare <br />

Antonino <br />

Intelisano <br />

ha <br />

aperto <br />

un' <br />

inchiesta <br />

10.cs-015.xml<br />

<br />

…<br />

<br />

…<br />

<br />

2.2.8 nome_proprio<br />

L’attributo nome_proprio (opzionale) può essere usato per l’annotazione <strong>di</strong> nomi propri, e<br />

consente <strong>di</strong> ricondurre il nome proprio ad una specifica classe semantica <strong>di</strong> ItalWordNet. Valori<br />

possibili dell’attributo sono etichette mnemoniche, definibili dall’utente. Le etichette utilizzate<br />

durante l’annotazione <strong>di</strong> <strong>Treebank</strong> sono ad esempio pers (per nomi propri <strong>di</strong> persona), grup (per i<br />

nomi propri che si riferiscono a gruppi <strong>di</strong> persone), luogo (per i nomi propri <strong>di</strong> luogo), man (per i<br />

196


Co<strong>di</strong>ce linea e Tema<br />

nomi propri <strong>di</strong> manufatti e prodotti in genere), np (per tutti i casi <strong>di</strong>versi dai precedenti). Cfr sezione<br />

6.2.7.<br />

2.2.9 commento<br />

L’attributo commento (opzionale) fornisce un luogo per inserire un commento ad uso<br />

dell’annotatore. Il valore dell’attributo sarà una qualsiasi stringa inserita dall’annotatore. Cfr<br />

sezione 6.2.11.2.<br />

cs-015.xml<br />

il <br />

procuratore <br />

militare <br />

Antonino <br />

Intelisano <br />

ha <br />

aperto <br />

un' <br />

inchiesta <br />

10.cs-015.xml<br />

<br />

…<br />

…<br />

<br />

2.2.10 nota<br />

L’attributo nota (opzionale) fornisce un luogo per inserire dubbi relativi all’assegnazione del<br />

senso. Il valore dell’attributo sarà una qualsiasi stringa inserita dall’annotatore. Cfr sezione 6.2.11.1.<br />

2.3 :unità semantica <strong>di</strong> tipo complesso<br />

Questo elemento è usato per marcare una espressione polilessicale, che al suo interno può<br />

contenere, oltre a parole semanticamente piene, anche parole funzionali semanticamente piena. La<br />

co<strong>di</strong>fica dell’elemento è in tutto e per tutto analoga a quella dell’elemento , tranne per<br />

il fatto <strong>di</strong> contenere al suo interno una rappresentazione degli elementi costitutivi dell’espressione<br />

polilessicale, co<strong>di</strong>ficati come elementi . Questi elementi hanno come unico attributo<br />

197


Co<strong>di</strong>ce linea e Tema<br />

obbligatorio quello necessario per la referenziazione della parola a livello morfologico. L’esempio<br />

seguente riassume sinteticamente i tratti relativi alla rappresentazione delle unità semantiche <strong>di</strong> tipo<br />

complesso:<br />

10.cs-015: Il nome del carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma)<br />

è “top secret”, ma la vicenda è stata denunciata alla magistratura e il procuratore militare<br />

Antonino Intelisano ha aperto un’inchiesta per il reato <strong>di</strong> offesa all’onore del Presidente<br />

della Repubblica.<br />

cs.morph015.xml<br />

…<br />

presidente <br />

della <br />

Repubblica <br />

…<br />

10.cs-015.xml<br />

<br />

…<br />

<br />

<br />

<br />

<br />

<br />

…<br />

<br />

Come si può notare dall’esempio, le uniche <strong>di</strong>fferenze (evidenziate in neretto) dell’insieme <strong>di</strong><br />

attributi dell’elemento rispetto a quello dell’elemento sono date dalla presenza degli<br />

attributi obbligatori lemma, pos, e tipo, che in<strong>di</strong>cano, rispettivamente, il lemma <strong>di</strong> riferimento, la<br />

categoria grammaticale, ed il tipo <strong>di</strong> espressione polilessicale (ad esempio un composto, un i<strong>di</strong>oma,<br />

o una costruzione con verbo supporto). Sempre in confronto all’elemento , inoltre,<br />

l’elemento non possiede invece l’attributo alterazione.<br />

2.4 :unità semantica <strong>di</strong> tipo titolo<br />

Questo elemento è usato per l’annotazione dei titoli e per <strong>di</strong>fferenziarli dal restante contesto. Può<br />

riferirsi o ad una singola parola o ad un insieme <strong>di</strong> parole a<strong>di</strong>acenti, incluse eventuali parole<br />

grammaticali. Rispetto agli attributi specificati per l’elemento , l’elemento si<br />

<strong>di</strong>fferenzia per possedere in aggiunta gli attributi lemma, pos e tipo, usati, rispettivamente, per<br />

annotare il lemma <strong>di</strong> riferimento, la categoria grammaticale, ed il tipo <strong>di</strong> entità alla quale il titolo si<br />

198


Co<strong>di</strong>ce linea e Tema<br />

riferisce. Non sono invece rilevanti per questo elemento gli attributi tipolemma, alterazione,<br />

figurato e nome_proprio.<br />

Analogamente all’elemento , l’elemento può contenere al suo interno uno o più<br />

elementi .<br />

3 DTD<br />

Ricapitoliamo quanto detto in precedenza riportando la DTD per il livello <strong>di</strong> annotazione<br />

semantico-lessicale:<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />


Co<strong>di</strong>ce linea e Tema<br />

commento CDATA #IMPLIED<br />

nota CDATA #IMPLIED<br />

ustid ID #REQUIRED><br />

200

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!