Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...
Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...
Treebank Sintattico-Semantica dell'Italiano - Istituto di Linguistica ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
SI-TAL<br />
<strong>Treebank</strong> <strong>Sintattico</strong>-<strong>Semantica</strong><br />
dell’Italiano<br />
Linea 1.3<br />
Manule operativo e valutazione della <strong>Treebank</strong><br />
-<br />
Manuale d'uso del software<br />
* *<br />
Consorzio Pisa Ricerche - (CPR)<br />
Consorzio Venezia Ricerche - (CVR)<br />
<strong>Istituto</strong> Trentino <strong>di</strong> Cultura - <strong>Istituto</strong> per la Ricerca Scientifica e<br />
Tecnologica - (ITC-irst)<br />
Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni<br />
Informatiche - (CERTIA)<br />
Synthema
Co<strong>di</strong>ce linea e Tema<br />
Sommario<br />
1 INTRODUZIONE.......................................................................................................9<br />
2 LA TREEBANK DI SI-TAL: RISULTATI DELL’ANNOTAZIONE...........................10<br />
2.1 Il corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL: composizione interna e livelli <strong>di</strong> annotazione.............................. 10<br />
2.2 Annotazione sintattica a costituenti ........................................................................................................... 12<br />
2.2.1 Risultati..................................................................................................................................................... 12<br />
2.2.2 Metodologia <strong>di</strong> annotazione...................................................................................................................... 12<br />
2.3 Annotazione sintattico-funzionale.............................................................................................................. 13<br />
2.3.1 Risultati..................................................................................................................................................... 13<br />
2.3.2 Metodologia <strong>di</strong> annotazione...................................................................................................................... 13<br />
2.4 Annotazione semantico-lessicale................................................................................................................. 14<br />
2.4.1 Risultati..................................................................................................................................................... 14<br />
2.4.2 Metodologia <strong>di</strong> annotazione...................................................................................................................... 16<br />
2.4.3 Annotazione e risorsa lessicale <strong>di</strong> riferimento .......................................................................................... 17<br />
2.4.4 Interazione tra i siti in carico dell'annotazione semantico-lessicale: CPR e IRST.................................... 17<br />
2.4.5 Interazione tra annotatori IRST-CPR e co<strong>di</strong>ficatori IWN......................................................................... 18<br />
2.4.6 Considerazioni e commenti finali ............................................................................................................. 19<br />
3 ANNOTAZIONE ORTOGRAFICA E MORFO-SINTATTICA ..................................19<br />
3.1 Annotazione ortografica.............................................................................................................................. 19<br />
3.2 Annotazione morfo-sintattica ..................................................................................................................... 20<br />
3.2.1 Annotazione <strong>di</strong> parole ortografiche morfologicamente complesse........................................................... 21<br />
3.2.2 Annotazione <strong>di</strong> espressioni polilessicali ................................................................................................... 21<br />
4 SPECIFICHE DI ANNOTAZIONE PER IL LIVELLO SINTATTICO A COSTITUENTI<br />
22<br />
4.1 Teoria X-barra e costituenza sintattica...................................................................................................... 22<br />
4.2 Costituenti sintattici nello schema <strong>di</strong> annotazione <strong>di</strong> SI-TAL ................................................................. 22<br />
4.2.1 F................................................................................................................................................................ 23<br />
4.2.2 IBAR......................................................................................................................................................... 24<br />
4.2.3 SN ............................................................................................................................................................. 24<br />
4.2.4 SP.............................................................................................................................................................. 25<br />
4.2.5 SPDA ........................................................................................................................................................ 25<br />
4.2.6 SPD........................................................................................................................................................... 26<br />
4.2.7 SA ............................................................................................................................................................. 26<br />
4.2.8 SAVV ....................................................................................................................................................... 26<br />
4.2.9 SQ ............................................................................................................................................................. 26<br />
4.2.10 SV2 ...................................................................................................................................................... 27<br />
4.2.11 SV3 ...................................................................................................................................................... 28<br />
4.2.12 SV5 ...................................................................................................................................................... 28<br />
4.2.13 F2 ......................................................................................................................................................... 28<br />
4.2.14 F3 ......................................................................................................................................................... 29<br />
4.2.15 FINT..................................................................................................................................................... 29<br />
4.2.16 FAC...................................................................................................................................................... 29<br />
4.2.17 COMPT................................................................................................................................................ 29<br />
4.2.18 COMPIN.............................................................................................................................................. 30<br />
2
Co<strong>di</strong>ce linea e Tema<br />
4.2.19 COMPC................................................................................................................................................ 31<br />
4.2.18 COORD................................................................................................................................................ 31<br />
4.2.19 FC......................................................................................................................................................... 32<br />
4.2.20 FP......................................................................................................................................................... 33<br />
4.2.21 CP......................................................................................................................................................... 33<br />
4.2.22 FS e CP ................................................................................................................................................ 34<br />
4.2.23 CP_INT................................................................................................................................................ 36<br />
4.2.24 DIRSP .................................................................................................................................................. 36<br />
4.3 Tipologia dei costituenti sintattici della <strong>Treebank</strong> <strong>di</strong> SI-TAL ................................................................. 36<br />
4.3.1 Costituenti Funzionali Strutturali.............................................................................................................. 37<br />
4.3.2 Costituenti Funzionali Lessicali................................................................................................................ 38<br />
4.3.3 Costituenti Sostanziali .............................................................................................................................. 38<br />
4.4 Criteri <strong>di</strong> annotazione.................................................................................................................................. 38<br />
4.4.1 Costituenti minori, Mo<strong>di</strong>ficatori e Marcatori Semantici........................................................................... 39<br />
4.4.2 Costituenti vuoti........................................................................................................................................ 39<br />
4.4.3 Clitici ........................................................................................................................................................ 40<br />
4.4.4 Il “SI” espletivo: inerente, passivante, me<strong>di</strong>o e impersonale....................................................................40<br />
4.4.5 Preposizioni e SP ...................................................................................................................................... 40<br />
4.4.6 Modali e costruzioni perifrastiche <strong>di</strong> varia natura (aspettuali, causativi).................................................. 40<br />
5 ANNOTAZIONE FUNZIONALE..............................................................................41<br />
5.1 Specifiche <strong>di</strong> annotazione............................................................................................................................ 41<br />
5.1.1 Tipologia delle relazioni funzionali .......................................................................................................... 41<br />
5.1.1.1 Relazioni <strong>di</strong> <strong>di</strong>pendenza .................................................................................................................. 42<br />
5.1.1.1.1 Inventario delle relazioni <strong>di</strong> <strong>di</strong>pendenza .................................................................................... 43<br />
5.1.1.1.2 Tratti associati agli elementi della relazione <strong>di</strong> <strong>di</strong>pendenza....................................................... 48<br />
5.1.1.1.2.1 Tratti <strong>di</strong>stintivi del DIPENDENTE ......................................................................................... 48<br />
5.1.1.1.2.2 Tratti <strong>di</strong>stintivi della TESTA ................................................................................................ 50<br />
5.1.1.1.2.3 Tratti <strong>di</strong>stintivi della TESTA e del DIPENDENTE ................................................................... 52<br />
5.1.1.2 Relazioni simmetriche <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione .................................................................. 52<br />
5.1.1.2.1 Tratti <strong>di</strong>stintivi del partecipante in relazioni simmetriche.......................................................... 53<br />
5.1.1.3 Relazioni <strong>di</strong> coreferenza.................................................................................................................. 53<br />
5.2 Criteri <strong>di</strong> annotazione per il livello funzionale.......................................................................................... 54<br />
5.2.1 Distinzione tra argomenti e mo<strong>di</strong>ficatori .................................................................................................. 55<br />
5.2.2 Costruzioni <strong>di</strong> base.................................................................................................................................... 56<br />
5.2.2.1 Costruzioni con verbo intransitivo .................................................................................................. 56<br />
5.2.2.2 Costruzioni con verbo intransitivo inaccusativo ............................................................................. 57<br />
5.2.2.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto ...................................................................... 57<br />
5.2.2.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto ................................................................... 57<br />
5.2.2.5 Costruzioni con verbo transitivo con complemento obliquo........................................................... 57<br />
5.2.2.6 Costruzioni passive ......................................................................................................................... 57<br />
5.2.2.7 Costruzioni con completive sottocategorizzate ............................................................................... 58<br />
5.2.2.8 Costruzioni con interrogative in<strong>di</strong>rette............................................................................................ 59<br />
5.2.2.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)..................................... 60<br />
5.2.2.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto............................................. 60<br />
5.2.2.11 Complementazione <strong>di</strong> nomi e aggettivi........................................................................................... 62<br />
5.2.2.12 Negazione........................................................................................................................................ 63<br />
5.2.2.13 Costruzioni esistenziali.................................................................................................................... 63<br />
5.2.3 Costruzioni coor<strong>di</strong>nate.............................................................................................................................. 63<br />
5.2.4 Costruzioni ellittiche................................................................................................................................. 65<br />
5.2.4.1 Ellissi del soggetto .......................................................................................................................... 65<br />
5.2.4.2 Ellissi del verbo............................................................................................................................... 66<br />
5.2.4.3 Ellissi in costruzioni verbali perifrastiche ....................................................................................... 67<br />
5.2.5 Annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza ................................................................................................... 67<br />
5.2.6 Casi particolari <strong>di</strong> costruzioni pre<strong>di</strong>cative................................................................................................. 68<br />
5.2.7 Costruzioni causative................................................................................................................................ 68<br />
3
Co<strong>di</strong>ce linea e Tema<br />
5.2.8 Costruzioni partitive ................................................................................................................................. 69<br />
5.2.9 Annotazione delle costruzioni con superlativo e con strutture comparative............................................. 69<br />
5.2.9.1 Superlativi ....................................................................................................................................... 69<br />
5.2.9.2 Costruzioni comparative.................................................................................................................. 70<br />
5.2.10 Miscellanea .......................................................................................................................................... 71<br />
5.2.10.1 Annotazione delle date .................................................................................................................... 71<br />
5.2.10.2 Annotazione <strong>di</strong> car<strong>di</strong>nalità complessa ............................................................................................. 72<br />
5.2.10.3 Annotazione <strong>di</strong> nomi propri ............................................................................................................ 72<br />
5.2.10.3.1 Annotazione <strong>di</strong> nome e cognome............................................................................................. 72<br />
5.2.10.3.2 Annotazione <strong>di</strong> nomi propri composti...................................................................................... 72<br />
5.2.10.4 Annotazione <strong>di</strong> costruzioni appositive <strong>di</strong> vario tipo........................................................................ 72<br />
5.2.10.5 Annotazione degli incisi in testa agli articoli .................................................................................. 73<br />
5.2.10.6 Un caso particolare <strong>di</strong> congiunzione ............................................................................................... 73<br />
5.2.11 Problemi aperti..................................................................................................................................... 73<br />
5.3 Aspetti <strong>di</strong> annotazione con FunTAS........................................................................................................... 75<br />
5.3.1 Una nuova relazione funzionale: CONCAT ................................................................................................ 76<br />
5.3.2 Annotazioni transitorie al livello della descrizione in tratti dei partecipanti............................................. 76<br />
5.3.2.1 L'attributo INTRODUTTORE............................................................................................................... 76<br />
5.3.2.2 L'attributo DIATESI........................................................................................................................... 79<br />
5.3.3 Valori particolari per INTRODEP ................................................................................................................ 79<br />
6 SPECIFICHE DI ANNOTAZIONE PER IL LIVELLO SEMANTICO-LESSICALE...80<br />
6.1 L’annotazione semantico-lessicale: tipologia degli elementi.................................................................... 80<br />
6.2 L’annotazione semantico-lessicale: tratti descrittivi ................................................................................ 81<br />
6.2.1 dbref (database <strong>di</strong> riferimento).................................................................................................................. 82<br />
6.2.2 ns (numero <strong>di</strong> senso) ................................................................................................................................. 82<br />
6.2.3 lem (lemma).............................................................................................................................................. 82<br />
6.2.4 pos (parte del <strong>di</strong>scorso) ............................................................................................................................. 83<br />
6.2.5 alter(azione) .............................................................................................................................................. 83<br />
6.2.6 fig(urato)................................................................................................................................................... 83<br />
6.2.7 np (nome proprio) ..................................................................................................................................... 84<br />
6.2.8 tipousc (tipo <strong>di</strong> unità semanticamente complessa).................................................................................... 84<br />
6.2.9 tipolemma ................................................................................................................................................. 84<br />
6.2.10 tipot (tipo <strong>di</strong> titolo)............................................................................................................................... 85<br />
6.2.11 Altri tratti che possono essere usati nella definizione <strong>di</strong> unità <strong>di</strong> senso ............................................... 85<br />
6.2.11.1 nota.................................................................................................................................................. 85<br />
6.2.11.2 comm(ento) ..................................................................................................................................... 85<br />
6.2.12 Tabella sinottica dei tratti per l’annotazione semantico-lessicale ........................................................ 88<br />
6.3 Criteri <strong>di</strong> annotazione.................................................................................................................................. 88<br />
6.3.1 Alterati e aggettivi superlativi................................................................................................................... 88<br />
6.3.2 Nomi Propri .............................................................................................................................................. 89<br />
6.3.3 Parole Straniere......................................................................................................................................... 90<br />
6.3.4 Criteri <strong>di</strong> identificazione e <strong>di</strong> annotazione delle USC ................................................................................ 91<br />
6.3.4.1 Perché l’annotazione delle USC ....................................................................................................... 91<br />
6.3.4.2 Problemi nell’identificazione ed interpretazione delle USC............................................................. 92<br />
6.3.4.2.1 Identificazione degli elementi costitutivi delle USC ................................................................... 93<br />
6.3.4.3 Espressioni i<strong>di</strong>omatiche e composti ................................................................................................ 94<br />
6.3.4.3.1 Criteri <strong>di</strong> identificazione delle espressioni i<strong>di</strong>omatiche e dei composti ..................................... 95<br />
6.3.4.3.1.1 Sequenze senza verbo......................................................................................................... 95<br />
6.3.4.3.1.2 Sequenze con il verbo......................................................................................................... 96<br />
6.3.4.4 Espressioni con verbo supporto....................................................................................................... 97<br />
6.3.5 Criteri <strong>di</strong> annotazione delle UST................................................................................................................ 99<br />
6.3.6 Gli Usi Figurati ....................................................................................................................................... 100<br />
6.3.6.1 La Metafora................................................................................................................................... 100<br />
6.3.6.2 La Metonimia ................................................................................................................................ 101<br />
6.3.7 Terminologia........................................................................................................................................... 102<br />
4
Co<strong>di</strong>ce linea e Tema<br />
6.3.8 Casi <strong>di</strong> mancata corrispondenza tra la risorsa lessicale <strong>di</strong> riferimento e l’uso attestato.......................... 103<br />
6.3.8.1 Assenza del lemma........................................................................................................................ 103<br />
6.3.8.2 Assenza del senso rilevante <strong>di</strong> un lemma già presente in IWN ..................................................... 104<br />
6.3.9 Corrispondenza con più sensi dello stesso lemma .................................................................................. 104<br />
6.4 Aspetti <strong>di</strong> annotazione con SemTAS ........................................................................................................ 106<br />
6.4.1 Combinando più risorse lessicali <strong>di</strong> riferimento ..................................................................................... 106<br />
6.4.2 Annotazione <strong>di</strong> nomi propri polilessicali ................................................................................................ 106<br />
6.4.3 Annotazione <strong>di</strong> neologismi e voci <strong>di</strong>alettali............................................................................................ 107<br />
6.4.4 GesTALt/SemTAS vs XML ................................................................................................................... 107<br />
7 SVILUPPO DI GESTALT......................................................................................108<br />
7.1 Processo <strong>di</strong> sviluppo del software............................................................................................................. 108<br />
7.2 Architettura <strong>di</strong> GesTALt .......................................................................................................................... 110<br />
7.3 Funzionalità <strong>di</strong> GesTALt v3.0 .................................................................................................................. 114<br />
7.3.1 ValTAS................................................................................................................................................... 114<br />
7.3.2 Wrapper-out............................................................................................................................................ 119<br />
7.3.3 SSParser.................................................................................................................................................. 122<br />
8 VALUTAZIONE.....................................................................................................123<br />
8.1 Mo<strong>di</strong>fiche al <strong>di</strong>zionario.............................................................................................................................. 125<br />
8.1.1 Derivanti dalla sintassi............................................................................................................................ 125<br />
8.1.1.1 Reggenze....................................................................................................................................... 125<br />
8.1.1.2 Testa nominale .............................................................................................................................. 125<br />
8.1.1.3 Testa verbale ................................................................................................................................. 126<br />
8.1.1.4 Espressioni polilessicali ................................................................................................................ 126<br />
8.1.1.5 Dipendenza in<strong>di</strong>retta con testa nominale....................................................................................... 127<br />
8.1.1.6 Dipendenza in<strong>di</strong>retta con testa verbale..........................................................................................128<br />
8.1.1.7 Dipendenza <strong>di</strong>retta con testa nominale.......................................................................................... 129<br />
8.1.1.8 Dipendenza <strong>di</strong>retta con testa verbale............................................................................................. 129<br />
8.1.1.9 Specifiche consultazioni................................................................................................................ 130<br />
8.1.2 Derivanti dalla semantica........................................................................................................................ 131<br />
8.1.2.1 Inserimento dei semantic type <strong>di</strong>sponibili..................................................................................... 131<br />
8.1.2.2 Nuovo semantic type..................................................................................................................... 132<br />
8.1.2.3 Derivanti dalla semantica in combinazione con la sintassi............................................................ 132<br />
8.2 Mo<strong>di</strong>fiche alla grammatica ....................................................................................................................... 132<br />
8.2.1 Raffinamento delle regole per la costruzione dell'albero........................................................................133<br />
8.2.1.1 Participi interpretati come aggettivi .............................................................................................. 133<br />
8.2.1.2 Quanto........................................................................................................................................... 134<br />
8.2.1.3 Lo - pre<strong>di</strong>cato preposto.................................................................................................................. 134<br />
8.2.1.4 Aggettivi come incisi..................................................................................................................... 134<br />
8.2.1.5 Quest'ultimo .................................................................................................................................. 135<br />
8.2.1.6 Prima ancora che ........................................................................................................................... 135<br />
8.2.2 Raffinamento delle regole <strong>di</strong> cancellazione ............................................................................................ 136<br />
8.2.2.1 Sostantivi interpretati come verbi.................................................................................................. 136<br />
8.2.2.2 Più ................................................................................................................................................. 137<br />
8.2.2.3 Come ............................................................................................................................................. 137<br />
8.2.3 Mo<strong>di</strong>fica delle preferenze e delle restrizioni........................................................................................... 137<br />
8.2.3.1 Sono............................................................................................................................................... 138<br />
8.2.3.2 Ieri ................................................................................................................................................. 138<br />
8.2.3.3 Dopo.............................................................................................................................................. 138<br />
8.3 Mo<strong>di</strong>fiche al transfer................................................................................................................................. 139<br />
8.3.1 Lo - pre<strong>di</strong>cato preposto .......................................................................................................................... 139<br />
5
Co<strong>di</strong>ce linea e Tema<br />
8.3.2 Subor<strong>di</strong>nate infinitive ............................................................................................................................. 139<br />
8.3.3 Milioni/miliar<strong>di</strong> <strong>di</strong>…............................................................................................................................... 139<br />
8.3.4 Mesi ........................................................................................................................................................ 140<br />
8.4 Mo<strong>di</strong>fiche all'interfaccia software............................................................................................................ 140<br />
8.5 Osservazioni ............................................................................................................................................... 141<br />
8.5.1 Ricerche infruttuose................................................................................................................................ 141<br />
8.5.2 Analisi del lavoro svolto ......................................................................................................................... 141<br />
RIFERIMENTI BIBLIOGRAFICI..................................................................................143<br />
APPENDICI .................................................................................................................148<br />
APPENDICE 1 - ANNOTAZIONE A COSTITUENTI: RAPPRESENTAZIONE IN XML<br />
.........................................................................................................................................149<br />
1 DTD.......................................................................................................................149<br />
1.1 L’elemento .................................................................................................................................... 149<br />
1.2 L’elemento .................................................................................................................................... 151<br />
1.3 L’elemento ................................................................................................................................... 152<br />
APPENDICE 2 - ANNOTAZIONE FUNZIONALE: RAPPRESENTAZIONE IN XML ..153<br />
2 DTD.......................................................................................................................153<br />
2.1 L’elemento (partecipante) ............................................................................................ 153<br />
2.1.1 quantificazione........................................................................................................................................ 155<br />
2.1.2 car<strong>di</strong>nalita ............................................................................................................................................... 155<br />
2.1.3 definitezza............................................................................................................................................... 155<br />
2.1.4 aux .......................................................................................................................................................... 156<br />
2.1.5 perifra...................................................................................................................................................... 156<br />
2.1.6 introdep................................................................................................................................................... 157<br />
2.1.7 caso ......................................................................................................................................................... 157<br />
2.1.8 status ....................................................................................................................................................... 157<br />
2.1.9 ruolo........................................................................................................................................................ 158<br />
2.1.10 modo .................................................................................................................................................. 160<br />
2.1.11 <strong>di</strong>at ..................................................................................................................................................... 162<br />
2.1.12 syn_form ............................................................................................................................................ 162<br />
2.1.13 reflex .................................................................................................................................................. 163<br />
2.1.14 pers..................................................................................................................................................... 163<br />
2.1.15 num .................................................................................................................................................... 164<br />
2.1.16 gen...................................................................................................................................................... 164<br />
2.1.17 introsim .............................................................................................................................................. 164<br />
2.1.18 partec_id............................................................................................................................................. 165<br />
2.1.19 href ..................................................................................................................................................... 165<br />
2.2 L’elemento (relazione funzionale) ............................................................................ 167<br />
2.2.1 relazionefunzionale................................................................................................................................. 167<br />
2.2.2 partidrefs................................................................................................................................................. 167<br />
2.2.3 relfunctid................................................................................................................................................. 168<br />
2.3 L’elemento .............................................................................................................. 168<br />
6
Co<strong>di</strong>ce linea e Tema<br />
3 ESEMPI ................................................................................................................169<br />
3.1 Costruzioni con verbo intransitivo........................................................................................................... 169<br />
3.2 Costruzioni con verbo intransitivo inaccusativo..................................................................................... 170<br />
3.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto ............................................................................. 171<br />
3.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto ..........................................................................172<br />
3.5 Costruzioni con verbo transitivo con complemento obliquo.................................................................. 173<br />
3.6 Costruzioni passive.................................................................................................................................... 173<br />
3.7 Costruzioni con completive sottocategorizzate ....................................................................................... 175<br />
3.8 Costruzioni con interrogative in<strong>di</strong>rette.................................................................................................... 176<br />
3.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)........................................... 176<br />
3.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto.................................................... 177<br />
3.11 Complementazione <strong>di</strong> nomi e aggettivi .................................................................................................... 178<br />
3.12 Negazione.................................................................................................................................................... 179<br />
3.13 Costruzioni esistenziali.............................................................................................................................. 179<br />
3.14 Costruzioni coor<strong>di</strong>nate .............................................................................................................................. 180<br />
3.15 Con<strong>di</strong>visione <strong>di</strong> complementi in costruzioni coor<strong>di</strong>nate......................................................................... 183<br />
3.16 Ellissi del soggetto...................................................................................................................................... 183<br />
3.17 Ellissi del verbo .......................................................................................................................................... 184<br />
3.18 Relazioni <strong>di</strong> coreferenza............................................................................................................................ 185<br />
3.19 Car<strong>di</strong>nalità complessa ............................................................................................................................... 185<br />
3.20 Nomi propri................................................................................................................................................ 185<br />
3.21 Costruzioni pre<strong>di</strong>cative particolari .......................................................................................................... 186<br />
3.22 Costruzioni causative ................................................................................................................................ 187<br />
3.23 Costruzioni partitive.................................................................................................................................. 187<br />
3.24 Superlativo assoluto................................................................................................................................... 188<br />
3.25 Superlativo relativo ................................................................................................................................... 188<br />
APPENDICE 3 - ANNOTAZIONE SEMANTICO-LESSICALE: RAPPRESENTAZIONE<br />
IN XML.............................................................................................................................190<br />
1 INTRODUZIONE...................................................................................................190<br />
7
Co<strong>di</strong>ce linea e Tema<br />
2 ELEMENTI DI MARKUP.......................................................................................190<br />
2.1 ............................................................................................................................................... 190<br />
2.2 :unità semantica semplice ............................................................................................................ 191<br />
2.2.1 ussid ........................................................................................................................................................ 193<br />
2.2.2 href.......................................................................................................................................................... 193<br />
2.2.3 dbref........................................................................................................................................................ 194<br />
2.2.4 numero_senso ......................................................................................................................................... 195<br />
2.2.5 tipolemma ............................................................................................................................................... 195<br />
2.2.6 alterazione............................................................................................................................................... 195<br />
2.2.7 figurato.................................................................................................................................................... 196<br />
2.2.8 nome_proprio.......................................................................................................................................... 196<br />
2.2.9 commento ............................................................................................................................................... 197<br />
2.2.10 nota..................................................................................................................................................... 197<br />
2.3 :unità semantica <strong>di</strong> tipo complesso.............................................................................................. 197<br />
2.4 :unità semantica <strong>di</strong> tipo titolo ...................................................................................................... 198<br />
3 DTD.......................................................................................................................199<br />
8
Co<strong>di</strong>ce linea e Tema<br />
1 Introduzione<br />
L'obiettivo previsto per la linea <strong>di</strong> ricerca 1.3 del tema “<strong>Treebank</strong> sintattico-semantica dell’italiano”<br />
consisteva nella produzione della risorsa finale, ed in modo particolare:<br />
• nel completamento della risorsa linguistica annotata ai livelli sintattici, a costituenti e<br />
funzionale, e semantico-lessicale attraverso l’estensione del primo prototipo sviluppato<br />
nell’ambito della Linea 1.2, fino alla copertura <strong>di</strong> circa 80.000 parole (tokens) per<br />
l’annotazione a costituenti, <strong>di</strong> circa 300.000 per l’annotazione funzionale, e <strong>di</strong> circa 80.000<br />
per l’annotazione semantico-lessicale;<br />
• nella realizzazione della versione finale <strong>di</strong> GesTALt, il sistema <strong>di</strong> applicazioni software <strong>di</strong><br />
supporto alla creazione e validazione della risorsa <strong>Treebank</strong>;<br />
• nella realizzazione della versione finale del sistema <strong>di</strong> traduzione automatica adottato per la<br />
valutazione della <strong>Treebank</strong> nei suoi <strong>di</strong>versi livelli <strong>di</strong> annotazione.<br />
Gli obiettivi sopra menzionati sono stati tutti raggiunti. Il presente capitolo documenta la<br />
versione finale della <strong>Treebank</strong> <strong>di</strong> SI-TAL ed include:<br />
• la descrizione dei risultati finali del processo <strong>di</strong> annotazione (sezione 2);<br />
• la versione finale delle specifiche <strong>di</strong> annotazione per i livelli ortografico e morfo-sintattico<br />
(sezione 3);<br />
• la versione completa ed aggiornata dei manuali <strong>di</strong> specifiche tecniche per l’annotazione<br />
sintattica, a costituenti e funzionale, e semantico-lessicale (rispettivamente nelle sezioni 4, 5<br />
e 6);<br />
• la documentazione del lavoro svolto nel corso della linea 1.3 finalizzato alla realizzazione<br />
della versione finale del workbench GesTALt per l’annotazione e la validazione della risorsa<br />
(sezione 7);<br />
• un rapporto sui risultati della fase <strong>di</strong> valutazione preliminare del contributo informativo della<br />
<strong>Treebank</strong> <strong>di</strong> SI-TAL ai fini del raffinamento <strong>di</strong> un componente software <strong>di</strong> traduzione<br />
automatica, sia al livello dell’informazione lessicale che ne può essere ricavata sia al livello<br />
dello stu<strong>di</strong>o <strong>di</strong> costruzioni problematiche ai fini del parsing sintattico (sezione 8).<br />
L’eventuale impatto <strong>di</strong> azioni correttive ed interventi specifici sia sul repertorio lessicale che<br />
sulla grammatica del componente <strong>di</strong> traduzione automatica sarà oggetto <strong>di</strong> valutazione<br />
quantitativa dettagliata nell’ambito della Linea 1.4.<br />
E' infine acclusa una sezione <strong>di</strong> Appen<strong>di</strong>ci che documentano la sintassi del linguaggio <strong>di</strong> markup<br />
(XML) adottato per il formato <strong>di</strong> interscambio del materiale annotato, e la corrispondenza tra<br />
questa sintassi e i contenuti linguistici definiti nelle specifiche linguistiche. La rappresentazione<br />
XML dell’annotazione sintattica a costituenti è illustrata nell’Appen<strong>di</strong>ce 1, quella dell’annotazione<br />
sintattico-funzionale nell’Appen<strong>di</strong>ce 2 e quella dell’annotazione semantico-lessicale nell’Appen<strong>di</strong>ce<br />
3.<br />
Per quanto riguarda le specifiche <strong>di</strong> annotazione dei livelli sintattici (a costituenti e funzionale) e<br />
semantico-lessicale, il presente capitolo contiene parte del materiale già documentato all’interno del<br />
Rapporto “Specifiche Tecniche” (Linea 1.1), gli aggiornamenti ad esso relativi apportati nel corso<br />
9
Co<strong>di</strong>ce linea e Tema<br />
della Linea 1.2 e documentati nel Rapporto “Primo Prototipo”, ed infine ulteriori aggiornamenti e<br />
mo<strong>di</strong>fiche che si sono resi necessari nel corso della Linea 1.3. Si è comunque ritenuto opportuno<br />
fornire all’utente finale della <strong>Treebank</strong> <strong>di</strong> SI-TAL una versione completa delle specifiche <strong>di</strong><br />
annotazione per rendere più agevole la consultazione della risorsa. La documentazione dei livelli <strong>di</strong><br />
annotazione della <strong>Treebank</strong> è articolata come segue:<br />
• specifiche linguistiche in senso stretto che definiscono l’ambito dei fenomeni linguistici<br />
coperti e le modalità <strong>di</strong> annotazione;<br />
• criteri <strong>di</strong> annotazione;<br />
• eventuale documentazione <strong>di</strong> problemi emersi nel corso della pratica <strong>di</strong> annotazione del<br />
corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL attraverso il workbench GesTALt, e delle soluzioni<br />
messe a punto in corso d’opera (circoscritta ai livelli <strong>di</strong> annotazione sintattico-funzionale<br />
e semantico-lessicale);<br />
• rappresentazione in XML dell’annotazione (nelle Appen<strong>di</strong>ci).<br />
Le <strong>di</strong>verse parti hanno ovvie interrelazioni, ma è sembrato comunque conveniente articolare la<br />
descrizione su più livelli in<strong>di</strong>pendenti per consentire a <strong>di</strong>verse tipologie ideali <strong>di</strong> lettore <strong>di</strong> accedere<br />
con più facilità ed efficacia all’informazione rilevante.<br />
La fase <strong>di</strong> annotazione ha costituito un banco <strong>di</strong> prova importante della robustezza e adeguatezza<br />
descrittiva degli schemi <strong>di</strong> annotazione messi a punto nelle linee precedenti. Le pagine che seguono<br />
compen<strong>di</strong>ano i risultati <strong>di</strong> questo processo <strong>di</strong> verifica empirica. Va notato che non tutte le strategie<br />
<strong>di</strong> annotazione adottate hanno consentito un trattamento coerente e sod<strong>di</strong>sfacente <strong>di</strong> tutti i fenomeni<br />
rilevanti. Il trattamento al livello sintattico delle strutture comparative, ad esempio, costituisce un<br />
caso particolarmente istruttivo dell’inadeguatezza della riflessione teorica sull’argomento e<br />
dell’insufficienza espressiva dei sistemi <strong>di</strong> rappresentazione al momento <strong>di</strong>sponibili nella<br />
letteratura. Sarebbe pertanto inopportuno cercare in questa versione delle specifiche una parola<br />
definitiva su tutti i fenomeni linguistici <strong>di</strong> interesse teorico. Ciononostante, esse forniscono, a nostro<br />
avviso, una mappa chiara e dettagliata <strong>di</strong> alcuni territori relativamente “battuti” e “rassicuranti”<br />
dalla linguistica teorica e computazionale, insieme all’identificazione puntuale <strong>di</strong> quei territori che<br />
invece richiedono ancora considerevoli energie prima <strong>di</strong> poter essere sottratti alle nebbie<br />
dell’approssimazione e assimilati ai primi. In questo senso, i manuali <strong>di</strong> specifiche tecniche qui<br />
presentati rappresentano un’opera ancora aperta a contributi e approfon<strong>di</strong>menti futuri. Sicuramente,<br />
essi hanno contribuito a gettare luce su quanto resta ancora da fare.<br />
2 La <strong>Treebank</strong> <strong>di</strong> SI-TAL: risultati dell’annotazione<br />
In questa sezione, viene illustrata la composizione finale della <strong>Treebank</strong> <strong>di</strong> SI_TAL; per ogni<br />
livello, sono brevemente descritti i risultati finali del processo <strong>di</strong> annotazione e la metodologia<br />
adottata per lo sviluppo della risorsa.<br />
2.1 Il corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL: composizione interna e livelli <strong>di</strong><br />
annotazione<br />
La composizione interna del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL è riportata nella tabella che segue:<br />
10
Co<strong>di</strong>ce linea e Tema<br />
Partizione<br />
corpus<br />
Fonte Origine Tokens<br />
Finanziario<br />
Bilanciato<br />
Il Sole-24 Ore Giornata del 25/5/1994 89.941<br />
La Repubblica<br />
Articoli <strong>di</strong> vario<br />
argomento usciti tra il<br />
1985 e il 1988<br />
Giornata del 15/7/1995<br />
59.945<br />
77.808<br />
Bilanciato Il Corriere della Sera Giornata del 7/8/1995<br />
57.938<br />
Bilanciato<br />
Perio<strong>di</strong>ci:<br />
• Casaviva<br />
• Centocose<br />
• Epoca<br />
• Espansione<br />
• Grazia<br />
• Panorama<br />
• Starbene<br />
• Storia Illustrata<br />
• Zerouno<br />
Selezione <strong>di</strong> articoli usciti<br />
nell’anno 1988<br />
19.915<br />
TOTALE 305.547<br />
La porzione specialistica (finanziaria) del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL è costituita dagli<br />
articoli estratti da Il Sole-24 Ore, per un totale <strong>di</strong> 89.941 parole (“tokens”). La rimanente parte, per<br />
un totale <strong>di</strong> 215.606 parole, costituisce il corpus “bilanciato”. In totale, la <strong>Treebank</strong> ha una<br />
copertura <strong>di</strong> 305.547 parole.<br />
La tabella che segue illustra la <strong>di</strong>stribuzione dei vari livelli <strong>di</strong> annotazione rispetto alle varie<br />
partizioni del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />
Annotazione<br />
Partiz.<br />
corpus<br />
Fonte<br />
<strong>Sintattico</strong>costituenti<br />
<strong>Sintattico</strong>funzionale<br />
Semanticolessicale<br />
Fin<br />
Il Sole-24 Ore<br />
Bil<br />
La Repubblica<br />
(1985-88)<br />
Bil<br />
La Repubblica<br />
(1995)<br />
Bil<br />
Il Corriere della<br />
Sera<br />
11
Co<strong>di</strong>ce linea e Tema<br />
Annotazione<br />
Partiz.<br />
corpus<br />
Fonte<br />
<strong>Sintattico</strong>costituenti<br />
<strong>Sintattico</strong>funzionale<br />
Semanticolessicale<br />
Perio<strong>di</strong>ci:<br />
Bil<br />
• Casaviva<br />
• Centocose<br />
• Epoca<br />
• Espansione<br />
• Grazia<br />
• Panorama<br />
• Starbene<br />
• Storia<br />
Illustrata<br />
• Zerouno<br />
(1988)<br />
Si noti che l’annotazione parallela ai tre livelli (a costituenti, sintattico-funzionale e semanticolessicale)<br />
è circoscritta al corpus finanziario de Il Sole-24 Ore.<br />
2.2 Annotazione sintattica a costituenti<br />
2.2.1 Risultati<br />
L’annotazione a costituenti ha riguardato la partizione finanziaria del corpus della <strong>Treebank</strong> <strong>di</strong><br />
SI-TAL, per un totale <strong>di</strong> 89.941 tokens, contro gli 80.000 previsti dall’Annesso Tecnico del<br />
progetto. Come illustrato nella tabella che segue, il processo <strong>di</strong> annotazione ha portato<br />
all’identificazione e conseguente annotazione <strong>di</strong> 71.093 costituenti complessi.<br />
Partizione<br />
corpus<br />
Fonte Tokens Costituenti<br />
Fin Il Sole-24 Ore 89.941 71.093<br />
2.2.2 Metodologia <strong>di</strong> annotazione<br />
L'annotazione a costituenti è stata effettuata in due fasi: prima una fase <strong>di</strong> pre-annotazione<br />
automatica il cui risultato è stato oggetto <strong>di</strong> revisione e correzione manuale; poi una fase <strong>di</strong><br />
revisione e correzione delle analisi che sono state convertite in formato XML e caricate nella base<br />
<strong>di</strong> dati <strong>di</strong> GesTALt. Si rinvia il lettore interessato al rapporto “Primo Prototipo”, sezione 4.1.1.1,<br />
dove sono illustrate le operazioni svolte nel dettaglio.<br />
12
Co<strong>di</strong>ce linea e Tema<br />
2.3 Annotazione sintattico-funzionale<br />
2.3.1 Risultati<br />
L’annotazione sintattico-funzionale ha riguardato l’intero corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL (sia<br />
la partizione bilanciata sia quella finanziaria), per un totale <strong>di</strong> 305.547 parole annotate (tokens), a<br />
fronte delle 300.000 previste dall’Annesso Tecnico del progetto.<br />
Il processo <strong>di</strong> annotazione ha portato all’identificazione e conseguente annotazione <strong>di</strong> 162.042<br />
relazioni funzionali, ripartite come segue:<br />
Partiz.<br />
corpus<br />
Fonte<br />
Relazioni<br />
funzionali<br />
identificate<br />
Relazioni<br />
con testa<br />
nominale<br />
Relazioni<br />
con testa<br />
verbale<br />
Relazioni<br />
con testa<br />
aggettivale<br />
Relazioni<br />
con altro<br />
tipo <strong>di</strong> testa<br />
Fin<br />
Bil<br />
Il Sole-24 Ore 47.446 23.529 20.042 1.380 2.495<br />
La Repubblica<br />
(1985-88)<br />
32.132 12.133 17.099 878 2.022<br />
Bil<br />
Bil<br />
La Repubblica<br />
(1995)<br />
Il Corriere<br />
della Sera<br />
41.238 16.241 22.085 1.186 1.726<br />
30.146 11.464 16.250 895 1.537<br />
Bil Perio<strong>di</strong>ci 11.080 4.488 5.366 502 724<br />
Fin+Bil TOTALE 162.042 67.855 80.842 4.841 8.504<br />
2.3.2 Metodologia <strong>di</strong> annotazione<br />
A questo livello, l'annotazione è stata effettuata manualmente per quanto riguarda Il Sole-24 Ore,<br />
La Repubblica (1985-88), Il Corriere della Sera e i Perio<strong>di</strong>ci (sulle motivazioni a supporto <strong>di</strong><br />
questa scelta metodologica si vedano i rapporti “Specifiche Tecniche”, sezione 5.1, e “Primo<br />
Prototipo”, sezione 4.1.2.1.1). Un esperimento <strong>di</strong> annotazione semi-automatica è stato condotto su<br />
un sottoinsieme del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL, corrispondente al corpus de La Repubblica<br />
(1995); a questo fine è stato realizzato un tool per l'annotazione in forma interattiva me<strong>di</strong>ante il<br />
quale l’annotatore conferma o corregge la vali<strong>di</strong>tà <strong>di</strong> una proposta <strong>di</strong> annotazione offerta<br />
dall’interfaccia. Questa porzione del corpus non è inclusa nella base <strong>di</strong> dati <strong>di</strong> GesTALt;<br />
l’annotazione è <strong>di</strong>sponibile in formato XML (per la rappresentazione XML dell’annotazione<br />
funzionale si veda l’Appen<strong>di</strong>ce 2).<br />
Per quanto riguarda l’annotazione manuale, è stata adottata una strategia <strong>di</strong> annotazione in due<br />
passi:<br />
1. annotazione per nuclei argomentali: in questo caso, l'annotazione è parziale nel senso che è<br />
circoscritta solo ai nuclei argomentali <strong>di</strong> pre<strong>di</strong>cati (si veda il rapporto “Primo Prototipo”,<br />
sezione 4.1.2.1.3);<br />
13
Co<strong>di</strong>ce linea e Tema<br />
2. completamento dell’annotazione per nuclei argomentali, conformemente alle Specifiche<br />
Tecniche fornite al termine della Linea 1.1. e successive integrazioni e mo<strong>di</strong>ficazioni<br />
(l’annotazione completa è illustrata nel rapporto “Primo Prototipo”, sezione 4.1.2.1.2).<br />
Questa strategia <strong>di</strong> annotazione in due passi presenta una serie <strong>di</strong> vantaggi. Innanzitutto, permette<br />
un controllo più rigoroso della qualità dell'annotazione che viene rivista ogni volta da almeno due<br />
annotatori: il primo annotatore effettua la prima fase <strong>di</strong> annotazione parziale; il secondo la completa<br />
per renderla conforme alle Specifiche <strong>di</strong> annotazione e nel contempo rivede quanto annotato nella<br />
fase precedente. Sul versante più strettamente operativo, si è raggiunta in minor tempo una<br />
maggiore copertura <strong>di</strong> testo, permettendo così:<br />
• <strong>di</strong> accelerare il processo <strong>di</strong> verifica e convalida delle Specifiche proposte al termine della<br />
Linea 1.1;<br />
• <strong>di</strong> avviare il processo <strong>di</strong> validazione dei risultati acquisiti in tempi più brevi; infatti, anche se<br />
l'informazione relativa ai vari tipi <strong>di</strong> mo<strong>di</strong>ficatori rimane ovviamente cruciale, buona parte<br />
della validazione riguarda l'annotazione dei nuclei argomentali (es. tipologia <strong>di</strong> complementi<br />
selezionati da un dato pre<strong>di</strong>cato). Si veda in proposito la sezione 8.<br />
2.4 Annotazione semantico-lessicale<br />
2.4.1 Risultati<br />
L’Annesso Tecnico stabilisce che l’annotazione semantico-lessicale debba avere<br />
complessivamente una copertura <strong>di</strong> 80.000 parole (tokens) così <strong>di</strong>stribuite:<br />
Corpus bilanciato<br />
Corpus specializzato (finanziario)<br />
56.000 tokens<br />
24.000 tokens<br />
In realtà il corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL conteneva circa 142.000 occorrenze, <strong>di</strong>stribuite tra<br />
sostantivi, verbi ed aggettivi. Era dunque necessario stabilire criteri per la selezione delle unità da<br />
annotare.<br />
Per quanto riguarda il corpus bilanciato, ciò ha comportato:<br />
− l'esclusione dal processo <strong>di</strong> annotazione semantico-lessicale <strong>di</strong> una porzione omogenea <strong>di</strong><br />
corpus (ovvero il sotto-corpus dei Perio<strong>di</strong>ci);<br />
− l’annotazione <strong>di</strong> un sotto-insieme delle occorrenze <strong>di</strong> sigle, abbreviazioni, nomi propri <strong>di</strong><br />
qualsiasi tipo, parole straniere, e <strong>di</strong> caratteri speciali.<br />
Anche riguardo al corpus finanziario, l’annotazione <strong>di</strong> sigle, abbreviazioni, caratteri speciali e<br />
parole straniere è stata effettuata in modo parziale, in linea con quanto stabilito nell’ambito della<br />
risorsa terminologica (EcoWN - corpus finanziario composto da articoli de Il Sole 24 Ore).<br />
Per entrambe le partizioni del corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata esclusa dall'annotazione<br />
la seguente tipologia <strong>di</strong> occorrenze verbali: ausiliari, modali, fare, stare e venire con funzione<br />
ausiliare. L'annotazione semantico-lessicale dei verbi si è limitata ai lemmi validati nella risorsa<br />
14
Co<strong>di</strong>ce linea e Tema<br />
lessicale <strong>di</strong> riferimento IWN che presentavano una frequenza <strong>di</strong> occorrenza maggiore <strong>di</strong> 20<br />
(frequenza da intendersi riferita all’unione <strong>di</strong> corpus bilanciato e finanziario).<br />
Infine, l'annotazione degli aggettivi è stata circoscritta ad una breve lista <strong>di</strong> lemmi (circa una<br />
sessantina) stilata in seguito ad uno stu<strong>di</strong>o <strong>di</strong> fattibilità da parte degli annotatori sulla base <strong>di</strong> quanto<br />
proposto dai co<strong>di</strong>ficatori delle risorse lessicali <strong>di</strong> riferimento.<br />
Globalmente l’annotazione semantico-lessicale ha riguardato sostantivi, aggettivi e verbi,<br />
secondo i seguenti termini:<br />
Sostantivi: L’annotazione ha avuto inizio a partire dalla lista <strong>di</strong> lemmi revisionati e resi <strong>di</strong>sponibili<br />
dai lessicografi, marcati nella risorsa lessicale <strong>di</strong> riferimento con l’etichetta “CT” (Corpus<br />
<strong>Treebank</strong>) per <strong>di</strong>stinguerli ed evitare mo<strong>di</strong>fiche da parte dei lessicografi non segnalate agli<br />
annotatori. Ma l'obiettivo <strong>di</strong> una copertura totale dell'annotazione dei sostantivi in entrambe<br />
le partizioni del corpus della <strong>Treebank</strong> (quella bilanciata e quella specialistica), ha portato<br />
all'annotazione <strong>di</strong> lemmi non inclusi in tale lista <strong>di</strong> partenza, inducendo all’uso del campo<br />
“Commento” da parte degli annotatori per segnalare lemmi mancanti in IWN o<br />
semplicemente sospetti sensi mancanti (che in questo modo <strong>di</strong>ventavano facilmente<br />
recuperabili).<br />
Nel caso del corpus finanziario, la copertura si può <strong>di</strong>re pressoché totale (ad esclusione <strong>di</strong><br />
sostantivi facenti parte <strong>di</strong> locuzioni). Nel caso del corpus bilanciato, procedendo in or<strong>di</strong>ne<br />
alfabetico, si può <strong>di</strong>re che la copertura dell'annotazione delle occorrenze dei sostantivi è<br />
totale per tutte le lettere dell’alfabeto ad eccezione <strong>di</strong> T, U, V, Z.<br />
Verbi: L’annotazione ha riguardato esclusivamente i lemmi revisionati e resi <strong>di</strong>sponibili dai<br />
lessicografi, principalmente con frequenza maggiore <strong>di</strong> 20. Va tuttavia sottolineato che sia<br />
per il corpus bilanciato che per quello finanziario non c’è stata una copertura totale <strong>di</strong> tali<br />
lemmi. La scadenza del progetto e l’obiettivo numerico dell’annotazione semantico-lessicale<br />
raggiunto (80.000 parole annotate) costituiscono le ragioni principali dell’esclusione <strong>di</strong> un<br />
sottoinsieme <strong>di</strong> verbi (<strong>di</strong> <strong>di</strong>mensioni ridotte nel caso del corpus bilanciato e leggermente<br />
maggiori nel caso del corpus finanziario).<br />
Aggettivi: Come per i verbi, né per il corpus bilanciato né per quello specialistico si è raggiunta una<br />
copertura totale delle occorrenze. A seguito <strong>di</strong> uno stu<strong>di</strong>o <strong>di</strong> fattibilità basato su un criterio<br />
<strong>di</strong> frequenza che ha tenuto conto separatamente dei due tipi <strong>di</strong> corpora (gli aggettivi più<br />
frequenti del corpus bilanciato e quelli più frequenti del corpus finanziario), una lista <strong>di</strong> circa<br />
sessanta elementi è stata sottoposta da parte degli annotatori ai lessicografi, i quali dopo aver<br />
controllato le entrate lessicali selezionate e averle marcate con l’etichetta “CT”, le hanno<br />
rese <strong>di</strong>sponibili per l’annotazione. Nel caso del corpus bilanciato l’annotazione ha riguardato<br />
anche anche lemmi non convalidati da parte dei lessicografi <strong>di</strong> IWN. Nel caso invece del<br />
corpus finanziario, considerato che tale lista è stata resa <strong>di</strong>sponibile nella fase finale<br />
dell’annotazione (verso fine gennaio 2001) e che era già stato raggiunto l’obiettivo numerico<br />
delle 24.000 parole annotate, si è preferito annotare solo entrate “stabili” (ovvero controllate<br />
dai lessicografi): l’annotazione ha quin<strong>di</strong> riguardato solo la sessantina <strong>di</strong> aggettivi messi a<br />
<strong>di</strong>sposizione, per un totale <strong>di</strong> occorrenze pari a circa un migliaio.<br />
A seguito delle selezioni fatte e dei criteri <strong>di</strong> annotazione adottati, l’annotazione semanticolessicale<br />
è stata portata a termine secondo i dati sintetizzati nella seguente tabella:<br />
15
Co<strong>di</strong>ce linea e Tema<br />
Annotazioni complete Annotazioni parziali Copertura totale<br />
(copertura)<br />
(copertura) annotazioni<br />
Corpus bilanciato 52.199 3.899 56.098<br />
Corpus finanziario 24.881 257 25.138<br />
Si noti che per “annotazioni parziali” s’intendono le unità semantiche (semplici o complesse) per<br />
le quali non è stato possibile precisare un numero <strong>di</strong> senso in riferimento alla risorsa lessicale<br />
(IWN-Gen o EcoWN) poiché o il lemma o il senso specifico risultavano mancanti. In tal caso,<br />
l’attributo relativo al numero <strong>di</strong> senso rimane privo <strong>di</strong> valore e la mancanza viene segnalata<br />
me<strong>di</strong>ante un commento. Non si confonda tale specificazione mancante con il caso <strong>di</strong><br />
“numero_senso=no”, usato per segnalare lemmi non presenti nelle risorse lessicali <strong>di</strong> riferimento (si<br />
veda la sezione 6.2.2).<br />
La tipologia delle unità semantiche in<strong>di</strong>viduate è riportata nella tabella che segue:<br />
Unità<br />
Unità Unità Unità<br />
Partiz.<br />
Fonte semantiche Copertura semantiche semantiche semantiche<br />
corpus<br />
identificate<br />
semplici complesse titolo<br />
Fin Il Sole-24 Ore 22.880 25.138 21.527 1.327 26<br />
Bil<br />
La Repubblica 13.997 16.632 13.200 735 62<br />
(1985-88)<br />
Bil<br />
La Repubblica 19.417 23.098 17.793 1.505 119<br />
(1995)<br />
Bil<br />
Il Corriere 13.678 16.368 12.621 981 76<br />
della Sera<br />
Fin/Bil TOTALE 69.972 81.236 65.141 4.548 283<br />
2.4.2 Metodologia <strong>di</strong> annotazione<br />
Come già previsto nella prima fase, per l’annotazione semantico-lessicale sia del corpus<br />
bilanciato che <strong>di</strong> quello finanziario si è proceduto per lemma, con una selezione dei lemmi sulla<br />
base della frequenza (dai lemmi più frequenti a quelli meno frequenti).<br />
Va tuttavia precisato che, giunti a frequenze basse (1-5 occorrenze all’interno del corpus, per un<br />
numero esteso <strong>di</strong> lemmi) laddove quin<strong>di</strong> la frequenza <strong>di</strong>ventava irrilevante, si è seguito l’or<strong>di</strong>ne<br />
alfabetico, conservando comunque l’obiettivo <strong>di</strong> una copertura totale.<br />
In particolare, per il corpus bilanciato, ragioni pratiche (rapi<strong>di</strong>tà <strong>di</strong> annotazione, frequenze molto<br />
basse dei lemmi, ecc.) hanno indotto all’annotazione per insiemi <strong>di</strong> lemmi o ad<strong>di</strong>rittura per lettera<br />
dell’alfabeto trasversalmente ai vari sotto-corpora (es. sono stati annotati tutti i sostantivi della<br />
lettera A, prima nel sotto-corpus de La Repubblica-15/7/1995, poi gli stessi nel Corriere della Sera<br />
e infine quelli del sotto-corpus de La Repubblica-1985/1988).<br />
Questo metodo <strong>di</strong> annotazione può avere causato qualche incoerenza, soprattutto in<br />
corrispondenza <strong>di</strong> entrate lessicali <strong>di</strong> IWN <strong>di</strong> <strong>di</strong>fficile interpretazione (quali entrate fortemente<br />
16
Co<strong>di</strong>ce linea e Tema<br />
polisemiche o complesse), ma è risultato l’unico possibile onde evitare insostenibili rallentamenti<br />
del lavoro.<br />
L'annotazione del livello semantico-lessicale ha comportato una complessa fase <strong>di</strong> interazione<br />
con il tema ItalWordNet (IWN), in carico dello sviluppo della risorsa lessicale <strong>di</strong> riferimento,<br />
anch'essa in corso <strong>di</strong> completamento durante la terza linea del progetto. Ciò ha richiesto la messa a<br />
punto <strong>di</strong> procedure <strong>di</strong> controllo reciproco, al fine <strong>di</strong> evitare <strong>di</strong>sallineamenti tra la risorsa <strong>Treebank</strong> e<br />
ItalWordNet.<br />
2.4.3 Annotazione e risorsa lessicale <strong>di</strong> riferimento<br />
La messa a <strong>di</strong>sposizione a fianco <strong>di</strong> ItalWordNet per il lessico generico (designato d’ora in avanti<br />
come IWN-Gen) della risorsa lessicale specifica del dominio finanziario (designata come EcoWN)<br />
a partire dagli inizi <strong>di</strong> <strong>di</strong>cembre 2000 ha indotto alla definizione del seguente criterio d’uso a<br />
seconda del lemma da annotare e del corpus <strong>di</strong> provenienza:<br />
• Corpus bilanciato:<br />
− lemma con soli sensi in IWN-Gen: riferimento a IWN-Gen;<br />
− lemma con soli sensi in EcoWN: riferimento a EcoWN;<br />
− lemma con sensi sia in IWN-Gen sia in EcoWN: riferimento a IWN-Gen;<br />
• Corpus finanziario:<br />
− lemma con soli sensi in IWN-Gen: riferimento a IWN-Gen<br />
− lemma con soli sensi in EcoWN: riferimento a EcoWN<br />
− lemma con sensi sia in IWN-Gen sia in EcoWN: riferimento a EcoWN<br />
In sintesi, per il corpus bilanciato la risorsa <strong>di</strong> riferimento principale è IWN-Gen mentre per<br />
quello finanziario è EcoWN.<br />
2.4.4 Interazione tra i siti in carico dell'annotazione semantico-lessicale: CPR e IRST<br />
Rispetto alla fase <strong>di</strong> annotazione per lo sviluppo del Primo Prototipo (Linea 1.2), le interazioni<br />
tra gli annotatori <strong>di</strong> IRST e <strong>di</strong> CPR hanno assunto modalità e frequenza <strong>di</strong>fferenti, in relazione al<br />
modo in cui la stessa annotazione è stata portata avanti.<br />
Fondamentalmente la natura dei lemmi annotati ha con<strong>di</strong>zionato il modo <strong>di</strong> mettere in pratica<br />
l’annotazione. Più specificatamente:<br />
• sostantivi<br />
Mentre l’annotazione nell’ambito della Linea 1.2 ha riguardato quasi esclusivamente unità<br />
semantiche semplici in<strong>di</strong>canti nomi comuni, nella Linea 1.3 è stata estesa a tutte le unità<br />
semantiche complesse e ai titoli, che per modalità <strong>di</strong> creazione e annotazione comportano tempi<br />
<strong>di</strong> annotazione maggiori.<br />
17
Co<strong>di</strong>ce linea e Tema<br />
• verbi<br />
La forte polisemia che caratterizza i verbi (es. passare prevede 21 sensi) ha implicato in fase <strong>di</strong><br />
annotazione:<br />
• necessità <strong>di</strong> maggior tempo per analizzare tutti i sensi possibili per un lemma;<br />
• possibilità <strong>di</strong> confusione tra sensi <strong>di</strong>versi;<br />
• <strong>di</strong>fficoltà a <strong>di</strong>scernere tra i vari sensi previsti e a cogliere <strong>di</strong>fferenze dettate<br />
apparentemente da sfumature minime.<br />
Facendo seguito a quanto detto sopra, i tempi <strong>di</strong> annotazione si sono enormemente <strong>di</strong>latati a scapito<br />
<strong>di</strong> un maggior numero <strong>di</strong> scambi <strong>di</strong> informazioni tra gli stessi annotatori. La definizione <strong>di</strong> strategie<br />
comuni <strong>di</strong> annotazione si è così fatta più spora<strong>di</strong>ca con conseguente penalizzazioni al livello<br />
dell’omogeneità dell’annotazione per mano dei <strong>di</strong>versi annotatori, che può così talvolta presentare<br />
incoerenze.<br />
2.4.5 Interazione tra annotatori IRST-CPR e co<strong>di</strong>ficatori IWN<br />
Per le stesse ragioni <strong>di</strong> cui sopra, modalità e tempi <strong>di</strong> annotazione hanno inciso anche sulle<br />
interazioni tra annotatori IRST-CPR e co<strong>di</strong>ficatori IWN, riducendo queste ultime in maniera<br />
sostanziale e soprattutto cambiandone la natura originale. Da un certo momento in avanti l’esigenza<br />
<strong>di</strong> comunicare dubbi e proposte <strong>di</strong> mo<strong>di</strong>fiche e/o integrazioni ai responsabili delle risorse lessicali è<br />
stata inevitabilmente posta in secondo piano. Oltretutto, all’avvicinarsi della scadenza della Linea, i<br />
tempi <strong>di</strong> co<strong>di</strong>fica delle risorse lessicali e quelli <strong>di</strong> annotazione del corpus risultavano sfasati e non<br />
più sincronizzabili.<br />
Nonostante ciò, gli annotatori hanno continuato a tenere traccia (in primo luogo attraverso<br />
commenti all’interno dell’annotazione) <strong>di</strong> tutti i dubbi e delle proposte <strong>di</strong> mo<strong>di</strong>fica/integrazione,<br />
ritenendo tali informazioni utili per revisioni e sviluppi futuri della risorsa lessicale e del corpus<br />
annotato.<br />
Da parte <strong>di</strong> entrambi i gruppi (annotatori IRST-CPR e co<strong>di</strong>ficatori IWN) c’è inoltre sempre stata<br />
coscienza del problema relativo alle mo<strong>di</strong>fiche della risorsa <strong>di</strong> riferimento nei punti interessanti<br />
lemmi già consegnati (mo<strong>di</strong>fiche che si sono ripercosse sulle annotazioni già realizzate che<br />
dovevano essere riviste alla luce della mo<strong>di</strong>fica stessa). Siccome integrazioni, revisioni e mo<strong>di</strong>fiche<br />
successive <strong>di</strong> IWN possono aver determinato <strong>di</strong>scordanza tra i sensi assegnati dagli annotatori e<br />
quelli previsti nel lessico <strong>di</strong> riferimento, per quanto ci sia stato l’impegno concreto <strong>di</strong> segnalare tali<br />
<strong>di</strong>screpanze e correggerle, non si esclude la possibilità <strong>di</strong> in<strong>di</strong>viduare all’interno della <strong>Treebank</strong> tali<br />
<strong>di</strong>scordanze.<br />
Infine, per quanto riguarda la risorsa lessicale terminologica (EcoWN), l’interazione tra<br />
annotatori e co<strong>di</strong>ficatori della risorsa si è concretizzata nella collaborazione allo sviluppo della<br />
stessa attraverso la proposta <strong>di</strong> una lista <strong>di</strong> possibili entrate raccolte durante la prima fase <strong>di</strong><br />
annotazione, una lista <strong>di</strong> lemmi tratti dal corpus finanziario ed opportunamente selezionati (nomi <strong>di</strong><br />
banche, aziende, titoli bancari, gergo borsistico, ecc.) e la partecipazione alla definizione dei sensi<br />
dei lemmi inseriti sulla base della <strong>di</strong>sambiguazione offerta dagli esempi tratti dal corpus finanziario<br />
stesso.<br />
18
Co<strong>di</strong>ce linea e Tema<br />
2.4.6 Considerazioni e commenti finali<br />
Come emerge dalla casistica marcata attraverso commenti (si veda la sezione 6.2.11.2), il <strong>di</strong>vario<br />
esistente tra corpus annotato e stato delle cose nel lessico <strong>di</strong> IWN non è minimo. Tale <strong>di</strong>vario era<br />
inevitabile se si considera che il lavoro <strong>di</strong> annotazione è avvenuto in parallelo con quello <strong>di</strong><br />
revisione e integrazione della risorsa lessicale generica <strong>di</strong> riferimento (IWN-Gen). Ancor più nel<br />
caso della risorsa lessicale terminologica (EcoWN), sviluppata ad annotazione già in corso (con<br />
conseguente problema <strong>di</strong> mapping tra sensi <strong>di</strong> entrate <strong>di</strong> IWN-Gen e sensi delle stesse entrate<br />
previste in EcoWN - es. ‘prestito’).<br />
Si ritiene quin<strong>di</strong> che il <strong>di</strong>vario tra corpus e lessico sia parzialmente legittimo e quello non<br />
linguisticamente giustificabile potrebbe essere rimosso con un aggiornamento fatto in parallelo<br />
delle due risorse (corpus e lessico).<br />
3 Annotazione ortografica e morfo-sintattica<br />
Come illustrato nei rapporti “Specifiche Tecniche” e “Primo Prototipo”, la <strong>Treebank</strong> <strong>di</strong> SI-TAL<br />
ha una struttura a tre livelli che copre i livelli <strong>di</strong> descrizione linguistica sintattico e semantico.<br />
L'annotazione sintattica è <strong>di</strong>stribuita su due <strong>di</strong>versi livelli, in<strong>di</strong>pendenti ma complementari: il livello<br />
dell'annotazione a costituenti ed il livello dell'annotazione funzionale. Il terzo livello riguarda<br />
l'annotazione semantico-lessicale realizzata nei termini <strong>di</strong> etichettatura <strong>di</strong> senso aumentata con altri<br />
tipi <strong>di</strong> informazione semantica.<br />
I tre livelli <strong>di</strong> annotazione sono in<strong>di</strong>pendenti gli uni dagli altri, e fanno tutti riferimento allo<br />
stesso input, ovvero al testo annotato morfo-sintatticamente: a questo livello l'annotazione include<br />
l'identificazione delle parole morfologiche, con specificazione della relativa parte del <strong>di</strong>scorso e<br />
tratti morfo-sintattici associati, ed il trattamento <strong>di</strong> forme morfologicamente complesse (es. forme<br />
verbali con clitico) e <strong>di</strong> espressioni polilessicali <strong>di</strong> base. Il testo con etichettatura morfo-sintattica fa<br />
a sua volta riferimento ad un altro modulo <strong>di</strong> annotazione, il modulo <strong>di</strong> annotazione ortografica, che<br />
include informazione relativa alle parole ortografiche e all'organizzazione macrotestuale (ovvero<br />
strutturazione del testo in unità quali titolo, sottotitolo, <strong>di</strong>dascalia, corpo dell'articolo, paragrafo,<br />
etc.).<br />
In questa sezione, riportiamo le specifiche <strong>di</strong> annotazione per i livelli presupposti<br />
dall’annotazione sintattica e semantico-lessicale: ovvero l’annotazione ortografica e quella morfosintattica.<br />
3.1 Annotazione ortografica<br />
Il corpus della <strong>Treebank</strong> è organizzato in articoli. Per ogni articolo, il modulo <strong>di</strong> annotazione<br />
ortografica riporta l'informazione relativa alle parole ortografiche che costituiscono il testo e<br />
all'organizzazione macrotestuale.<br />
L'informazione relativa alle parole ortografiche include in<strong>di</strong>cazione della presenza <strong>di</strong> caratteri<br />
maiuscoli/minuscoli con <strong>di</strong>stinzione della seguente tipologia <strong>di</strong> casi:<br />
• tutto minuscole<br />
• tutto maiuscole<br />
• maiuscola iniziale<br />
• presenza sia <strong>di</strong> maiuscole sia <strong>di</strong> minuscole come in "OdG"<br />
19
Co<strong>di</strong>ce linea e Tema<br />
Non si <strong>di</strong>spone dell'informazione relativa al carattere tipografico (neretto, corsivo) in quanto non<br />
era presente nella fonte.<br />
Per ogni articolo, l'informazione macrotestuale consiste nella seguente tipologia <strong>di</strong> informazioni:<br />
• corpus <strong>di</strong> appartenenza, bilanciato o finanziario<br />
• fonte, ovvero titolo del giornale o del perio<strong>di</strong>co in cui è apparso l'articolo<br />
• data<br />
• articolo<br />
• argomento<br />
• autore/firma<br />
• titolo principale<br />
• mezzo titolo<br />
• sottotitolo<br />
• sommario<br />
• corpo del testo<br />
• paragrafo<br />
• <strong>di</strong>dascalia<br />
• tabella (solo quando contenente dati testuali)<br />
La DTD relativa al modulo <strong>di</strong> annotazione ortografica è riportata in appen<strong>di</strong>ce al Rapporto<br />
Tecnico “Primo Prototipo” (Linea 1.2).<br />
3.2 Annotazione morfo-sintattica<br />
Al livello morfo-sintattico, l'annotazione riguarda l'identificazione delle parole morfologiche del<br />
testo costituente l'articolo, con specificazione della relativa parte del <strong>di</strong>scorso e tratti morfologici e<br />
morfo-sintattici associati (la DTD relativa a questo livello <strong>di</strong> annotazione è riportata in appen<strong>di</strong>ce al<br />
Rapporto Tecnico “Primo Prototipo”, Linea 1.2). In questo caso, l'annotazione fa riferimento al<br />
modulo <strong>di</strong> annotazione del livello precedente, ovvero ortografico.<br />
Ogni parola morfologica viene descritta dai seguenti tratti:<br />
• parte del <strong>di</strong>scorso ("pos"), la cui specificazione è obbligatoria; segue l’inventario dei<br />
possibili valori per questo attributo:<br />
• Nome (S)<br />
• Verbo (V)<br />
• Aggettivo (A)<br />
• Pronome (P)<br />
• Predeterminatore (T)<br />
• Determinatore (D)<br />
• Articolo (R)<br />
• Avverbio (B)<br />
• Preposizione (E)<br />
• Congiunzione (C)<br />
• Numerale (N)<br />
20
Co<strong>di</strong>ce linea e Tema<br />
• Interiezione (I)<br />
• Punteggiatura (@@)<br />
• Abbreviazione (SA)<br />
• tratti morfologici ("mfeats"), espressi tramite un co<strong>di</strong>ce sintetico che combina informazione<br />
<strong>di</strong> persona, numero, tempo, modo, etc; tale specificazione è opzionale, essendo limitata ai<br />
soli casi in cui è rilevante; l'inventario dei valori associati a questo attributo è riportato in<br />
Appen<strong>di</strong>ce al Manuale delle "Specifiche Tecniche" (Linea 1.1);<br />
• tratti morfo-sintattici ("sfeats") del tipo verbo transitivo, nome umano, etc. Si tratta <strong>di</strong><br />
etichette volte a integrare l'informazione morfologica delle "mfeats", che permettono una<br />
annotazione in costituenti sintattici tale che ciascun costituente ha una propria identità<br />
semantica chiara, e facilmente relazionabile alle annotazioni funzionali a teste introdotte nel<br />
livello <strong>di</strong> analisi superiore. Si noti che, come nel precedente caso, tale specificazione è<br />
opzionale, essendo limitata ai soli casi in cui è rilevante. L'inventario dei valori delle "sfeats"<br />
con, associato ad ogni etichetta, un commento esplicativo; è riportato Appen<strong>di</strong>ce al Rapporto<br />
Tecnico "Primo Prototipo" (Linea 1.2);<br />
• lemma, la cui specificazione è obbligatoria.<br />
L'annotazione a questo livello include anche il trattamento <strong>di</strong> forme morfologicamente<br />
complesse e <strong>di</strong> espressioni polilessicali <strong>di</strong> base, illustrato rispettivamente nelle sezioni 3.2.1 e 3.2.2.<br />
3.2.1 Annotazione <strong>di</strong> parole ortografiche morfologicamente complesse<br />
Nell'annotazione <strong>di</strong> parole ortografiche morfologicamente complesse (ad es. forme verbali con<br />
clitico), la parola ortografica morfologicamente complessa è segmentata nei suoi elementi<br />
costitutivi. Nel caso delle parole contenenti elementi clitici (es. mangiarlo) due o più parole<br />
morfologiche (es. mangiare e lo) punteranno alla stessa forma ortografica. Ad esempio, la forma<br />
verbale con clitico pubblicandola del livello ortografico, al livello morfologico è segmentata in due<br />
parole morfologiche i cui lemmi sono rispettivamente pubblicare e la e che fanno riferimento<br />
entrambe alla stessa unità ortografica.<br />
3.2.2 Annotazione <strong>di</strong> espressioni polilessicali<br />
Nell'annotazione <strong>di</strong> espressioni polilessicali, la sequenza <strong>di</strong> parole ortografiche che compongono<br />
l'espressione polilessicale è annotata come un'unica parola morfologica.<br />
Le espressioni polilessicali annotate a questo livello sono sempre costituite da sequenze continue<br />
<strong>di</strong> parole ed includono:<br />
• espressioni del tipo ad_hoc, inter_nos, prima_facie, run_time, plug_and_play;<br />
• espressioni irregolari del tipo al_<strong>di</strong>_là, per_lo_più, alla_spicciolata, allo_scoperto,<br />
all'_impazzata;<br />
• locuzioni preposizionali del tipo in_funzione_<strong>di</strong>, fino_a, intorno_a.<br />
Le espressioni polilessicali <strong>di</strong> questo livello sono valide per tutti i livelli <strong>di</strong> annotazione della<br />
<strong>Treebank</strong>. L'annotazione sintattica e semantico-lessicale fa riferimento alle multi-words del livello<br />
21
Co<strong>di</strong>ce linea e Tema<br />
base. Quin<strong>di</strong> fino_a sarà trattata e vista come preposizione e dunque come singola unità <strong>di</strong><br />
annotazione da tutti i livelli. Vi sono altri tipi <strong>di</strong> espressioni polilessicali, come ad esempio<br />
avere_un'idea, fare_sol<strong>di</strong>, fare_esperienza, avere_familiarità così come<br />
consiglio_<strong>di</strong>_amministrazione che sono trattate come tali solo al livello semantico, ovvero la loro<br />
identità <strong>di</strong> espressioni polilessicali è introdotta solo al livello dell'annotazione semantico-lessicale<br />
(si veda la sezione 6.3.4).<br />
Si consideri come esempio la locuzione preposizionale al <strong>di</strong> là <strong>di</strong>: all'intervallo <strong>di</strong> unità<br />
ortografiche coperto dall’espressione polilessicale corrisponde, al livello morfologico, un’unica<br />
parola morfologica il cui lemma è al_<strong>di</strong>_la'_<strong>di</strong> a cui è associata l'interpretazione <strong>di</strong> preposizione<br />
(pos=E). La parola morfologica identificata fa riferimento all'intervallo <strong>di</strong> parole della<br />
rappresentazione ortografica dello stesso articolo.<br />
4 Specifiche <strong>di</strong> annotazione per il livello sintattico a costituenti<br />
In questa sezione forniamo la versione finale delle specifiche <strong>di</strong> annotazione per il livello<br />
sintattico a costituenti, che raccoglie mo<strong>di</strong>fiche ed integrazioni apportate nel corso del processo <strong>di</strong><br />
annotazione. In particolare, si parte dai fondamenti teorici che hanno ispirato la definizione dello<br />
schema (sezione 4.1) per giungere ad una dettagliata descrizione e classificazione dei costituenti<br />
sintattici (sezioni 4.2 e 4.3) ed i relativi criteri <strong>di</strong> annotazione (sezione 4.4).<br />
4.1 Teoria X-barra e costituenza sintattica<br />
Schematicamente, la teoria X-barra (Chomsky 1986) prevede una organizzazione a teste e<br />
proiezioni <strong>di</strong> teste ognuna delle quali dotata <strong>di</strong> una barra, in or<strong>di</strong>ne gerarchico: per cui, il nodo da<br />
cui pende la testa è denotato da 0 e i successivi no<strong>di</strong> dominanti hanno una barra, due barre e<br />
eventuali ulteriori barre - anche se due barre sono <strong>di</strong> solito il massimo livello <strong>di</strong> proiezione.<br />
L’organizzione gerarchica della teoria prevede le seguenti regole astratte <strong>di</strong> riscrittura:<br />
Schema teorico regole X-barra<br />
CP --> Spec(Costituenti Dislocati), Cbarra<br />
Cbarra --> C0, IP<br />
IP --> Spec (SN), Ibarra<br />
Ibarra --> I0, Complementi<br />
C0 --> Complementatore<br />
I0 --> Verbo flesso a tempo finito<br />
4.2 Costituenti sintattici nello schema <strong>di</strong> annotazione <strong>di</strong> SI-TAL<br />
Nella definizione dello schema <strong>di</strong> annotazione della <strong>Treebank</strong> <strong>di</strong> SI-TAL non abbiamo adottato<br />
integralmente la teoria X-barra e i nomi che da essa derivano: nel dettaglio, abbiamo utilizzato lo<br />
schema generale e le etichette IBAR e CP. Per il resto sono state usate sempre etichette <strong>di</strong><br />
costituenti sintattici all’italiana: S(intagma) e non P(hrase) per non provocare confusione, ad<br />
esclusione <strong>di</strong> CP che è stato mantenuto nella forma originale all’inglese.<br />
Le etichette adottate sono commentate nel dettaglio in quanto segue. Presentiamo qui in basso<br />
l’organizzazione astratta della nostra rappresentazione sintattica per il livello <strong>di</strong> frase, con le<br />
mo<strong>di</strong>fiche che introdotte per la <strong>Treebank</strong> <strong>di</strong> SI-TAL. E’ importante ricordare che la stessa<br />
22
Co<strong>di</strong>ce linea e Tema<br />
organizzazione si potrebbe applicare anche agli altri costituenti maggiori con teste semantiche –<br />
sintagma aggettivale (SA), sintagma nominale (SN), sintagma preposizionale (SP) ecc. -, ma poiché<br />
questi non posseggono argomenti obbligatori, questi sono posti sullo stesso livello degli aggiunti e<br />
seguono quin<strong>di</strong> tutti la testa nell’or<strong>di</strong>ne lineare in cui vengono analizzati in superficie.<br />
Come detto più sopra, per il livello <strong>di</strong> frase abbiamo utilizzato CP, per contenere i costituenti<br />
Dislocati o semplicemente Anteposti e eventuali Aggiunti, frasali e non. Per il resto abbiamo<br />
utilizzato Ibarra come previsto nella teoria - che abbiamo chiamato IBAR, per riscrivere il verbo<br />
flesso; e il costituente Complementi che contiene i complementi, che abbiamo chiamato COMP<br />
seguito da T/C/IN per in<strong>di</strong>care la specializzazione per un tipo <strong>di</strong> sottocategorizzazione, dove T sta<br />
per transitivo, C per copulativo e IN per intransitivo. Invece <strong>di</strong> IP abbiamo usato F, e questo nodo è<br />
dominato da no<strong>di</strong> <strong>di</strong> F specializzati. Lo schema adottato nella <strong>Treebank</strong> <strong>di</strong> SI-TAL risulta essere<br />
dunque come segue:<br />
CP --> (Aggiunti), Spec(Costituenti Dislocati), Cbarra<br />
Cbarra --> FC/FS/FInt, F<br />
F --> Spec (SN), IBAR, Complementi, (Aggiunti)<br />
IBAR --> (Neg, Clitici),VerboFlesso (semplice o complesso) con Avverbiali eventuali<br />
Complementi --> COMPT/ COMPC/COMPIN<br />
Per quanto riguarda poi la questione dei tratti <strong>di</strong> accordo, ci siamo basati su suggerimenti della<br />
LFG che prevedono nessun accordo verbale nella rappresentazione, ma tutti i tratti nei SN, che nel<br />
nostro caso sono quelli del livello morfo-sintattico. Riportiamo qui in basso esempi <strong>di</strong> strutture per i<br />
vari costituenti maggiori allo scopo <strong>di</strong> mostrare l’organizzazione dei componenti sulla base dello<br />
schema X-barra. Come si potrà notare, la testa è sempre l’ultimo elemento che precede i<br />
complementi e/o gli aggiunti, ed è a sua volta preceduta da eventuali costituenti minori che<br />
costituiscono il contenuto <strong>di</strong> SPECificatore, nodo che non riportiamo per non appesantire la<br />
rappresentazione stessa.<br />
Ogni paragrafo che segue tratterà ciascun costituente sintattico separatamente mettendo in<br />
grassetto l’elemento testa <strong>di</strong> ciascun costituente preso in considerazione. Si noti che l’in<strong>di</strong>cazione<br />
della testa non è parte integrante dello schema <strong>di</strong> annotazione proposto ma viene inclusa negli<br />
esempi <strong>di</strong> annotazione che seguono per facilitarne la lettura e l’interpretazione. Va inoltre fatto<br />
presente che le etichette morfo-sintattiche che seguono la categoria grammaticale riportate negli<br />
esempi sotto corrispondono alle "sfeats", ovvero tratti morfo-sintattici del tipo verbo transitivo,<br />
nome umano (per maggiori dettagli si veda la sezione 3.2).<br />
4.2.1 F<br />
Con questo simbolo si intende una frase semplice con un pre<strong>di</strong>cato principale e complementi che<br />
possono anche includere altre frasi. Sono anche considerate frasi semplici le frasi ellittiche.<br />
f-[sn-[npro-Gullit],<br />
ibar-[ausa-ha, vppt-<strong>di</strong>chiarato],<br />
compt-[sn-[n-guerra], sp-[part-alla, sn-[n-stampa], sa-[ag-sportiva]]]]<br />
f-[sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]],<br />
ibar-[vt-richiede],<br />
compt-[sn-[n-montagne, spd-[pd-<strong>di</strong>, sn-[n-sol<strong>di</strong>]]]]]<br />
23
Co<strong>di</strong>ce linea e Tema<br />
f-[sn-[<strong>di</strong>m-questa, n-casa],<br />
ibar-[clit-si, vt-vende],<br />
compt-[savv-[avv-bene]]]<br />
f-[ibar-[vsup-dobbiamo, viin-vincere], sn-[nt-domenica],<br />
sp-[p-per,<br />
sv2-[vit-interrompere, compt-[sn-[<strong>di</strong>m-questo, ag-brutto, nt-momento]]]]]<br />
4.2.2 IBAR<br />
Con questo simbolo viene riscritto il gruppo verbale che può includere al proprio interno gli<br />
ausiliari essere o avere, la negazione, eventuali clitici e avverbi che si possono interporre tra<br />
l’ausiliare e il verbo lessicale. Oltre agli ausiliari fanno parte <strong>di</strong> questo costituente i modali e i verbi<br />
aspettuali, e anche la forma perifrastica stare per. Analogamente alla <strong>Treebank</strong> in corso <strong>di</strong><br />
costruzione per lo spagnolo (Sandoval et al. 1999), il problema dei verbi cliticizzati con enclitica è<br />
stato risolto utilizzando la forma <strong>di</strong> parola con l’enclitico e ripetendo successivamente il clitico<br />
come parola separata. In questo caso, quin<strong>di</strong>, il clitico si troverebbe sia all’interno <strong>di</strong> IBAR che nel<br />
complemento (COMPT/IN/C) dove riceverebbe una interpretazione. Segue una tipologia <strong>di</strong><br />
costituenti IBAR:<br />
ibar-[neg-non, vc-ha]<br />
ibar-[ause-è, vc-<strong>di</strong>ventata]<br />
ibar-[ausa-ha, vppt-<strong>di</strong>chiarato]<br />
ibar-[vt-richiede]<br />
ibar-[clit-si, vt-vende]<br />
ibar-[clitdat-le, ausa-ha, vppt-dato]<br />
ibar-[vin-arrivò]<br />
ibar-[ause-è, vppin-arrivata]<br />
ibar-[neg-non, vsup-devono, viin-guardare]<br />
ibar-[ause-è, ausep-stato, vppt-assunto]<br />
ibar-[ause-sono, ausep-stati, avv-spesso, vppt-segnalati]<br />
ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle]<br />
4.2.3 SN<br />
Il Sintagma Nominale si sviluppa con una serie <strong>di</strong> specificatori, una testa ed eventuali<br />
complementi o aggiunti. Tra i costituenti specificatori ci sono gli articoli, i quantificatori, i<br />
numerali; sempre prima del nome si trovano gli aggettivi e i possessivi che non ricevono una<br />
propria struttura <strong>di</strong> costituenza ma vengono semplicemente elencati prima della testa. Gli aggettivi<br />
che seguono la testa del SN sono invece rappresentati nel proprio costituente perché possono avere<br />
a loro volta una struttura interna con complementi ed aggiunti. Sempre all’interno del SN ci sono i<br />
costituenti SPD e gli eventuali complementi frasali nel caso si tratti <strong>di</strong> un nome fattivo o una forma<br />
polilessicale. Le frasi relative sono tutte incluse nel SN.<br />
Un commento a parte va fatto per i nominali che fungono da mo<strong>di</strong>ficatori <strong>di</strong> altri nominali.<br />
Alcuni <strong>di</strong> questi sono nomi propri i fratelli Karamazov, la commissione Sangalli; altri sono semplici<br />
nomi comuni che hanno una funzione <strong>di</strong> specificazione, il settore cucine, la politica suicida ecc. In<br />
tutti questi casi non si in<strong>di</strong>vidua esplicitamente la testa a livello <strong>di</strong> costituenza, in quanto i due o più<br />
nominali si troverebbero allo stesso livello. Il livello dell’annotazione funzionale fornirà invece<br />
l’in<strong>di</strong>cazione esplicita <strong>di</strong> quale dei due o più nominali funga da testa del SN, sulla base delle<br />
relazioni grammaticali che il SN intrattiene con il resto della frase. Se ad esempio è un soggetto,<br />
l’accordo verbale servirà ad in<strong>di</strong>viduare la testa, ecc.<br />
Vi sono poi casi in cui la testa è una espressione polilessicale o multi-word. Segue una tipologia<br />
<strong>di</strong> costituenti <strong>di</strong> tipo SN:<br />
24
Co<strong>di</strong>ce linea e Tema<br />
sn-[art-La, npro-Bimex]<br />
sn-[art-una, ag-bella, n-ragazza]<br />
sn-[ind-molti, n-libri]<br />
sn-[num-<strong>di</strong>eci, n-programmatori]<br />
sn-[ag-infondate, n-speculazioni]<br />
sn-[art-il, poss-loro, n-strumento, spd-[pd-<strong>di</strong>, sn-[n-ricerca]]<br />
sn-[art-un, n-modo, sv2-[pt-<strong>di</strong>, viin-fare, compt-[sn-[n-sol<strong>di</strong>], savv-[avvrapidamente]]]]<br />
sn-[art-Il, n-fatturato, sa-[ag-complessivo],<br />
spd-[partd-delle, sn-[n-società],<br />
coord-[sv3-[vppt-controllate], coord-[cong-e],<br />
sv3-[vppt-collegate]]]<br />
sn-[art-’La’, n-credenza,<br />
fac-[pk-che,<br />
f-[sn-[art-la, n-terra],<br />
ibar-[vcir-sia],<br />
compc-[sa-[ag-rotonda]]]]<br />
sn-[art-il, n-ragazzo,<br />
f2-[rel-che, f-[sn-[nh-Maria],<br />
ibar-[ausa-ha, vppt-incontrato], savv-[avv-ieri]]]]]<br />
sn-[art-la, ag-cosiddetta, n-commissione, nh-sangalli]<br />
sn-[art-il, n-settore, n-cucine]<br />
sn-[nt-domenica, nt-sera]<br />
4.2.4 SP<br />
I costituenti SP sono normalmente composti obbligatoriamente da una testa <strong>di</strong> tipo P<br />
(preposizione) o PART (ovvero preposizione articolata) e da un costituente SN che ne costituisce un<br />
elemento essenziale. Sono trattati come SP anche gli aggiunti infinitivali che quin<strong>di</strong> dopo la testa<br />
hanno un costituente SV2. Va ricordato che si escludono da questo caso i sintagmi preposizionali<br />
introdotti da <strong>di</strong> e da, che hanno una marca sintattica specializzata, come chiarito nelle sezioni 4.2.5<br />
e 4.2.6.<br />
sp-[part-alla, sn-[n-stampa, sa-[ag-sportiva]]]<br />
sp-[p-senza, sv2-[viin-chiedere]]<br />
sp-[p-dopo, sv2-[vcl-averlo, clitac-lo, vppin-chiesto]]<br />
4.2.5 SPDA<br />
Il costituente SPDA è costituito da una testa preposizionali <strong>di</strong> tipo specializzato, il da o le<br />
preposizioni articolate <strong>di</strong> da, e un SN. Questo costituente può servire da Agente Obliquo nelle frasi<br />
passive, oppure può in<strong>di</strong>viduare complementi o circostanziali <strong>di</strong> vario tipo, tra cui un locativo con<br />
l’in<strong>di</strong>cazione <strong>di</strong> Origine o Provenienza.<br />
spda-[partda-dalla, sn-[npro-Union_Carbide]]<br />
spda-[partda-dal, sn-[n-casolare]]]]<br />
coord-[spda-[pda-da, sn-[npro-Sting]],<br />
punt-,<br />
sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]],<br />
cong-e,<br />
spda-[partda-dalla, sn-[npro-Nannini]]]]]<br />
25
Co<strong>di</strong>ce linea e Tema<br />
4.2.6 SPD<br />
Il costituente SPD è costituito da una testa preposizionali <strong>di</strong> tipo specializzato, il <strong>di</strong> o le<br />
preposizioni articolate <strong>di</strong> <strong>di</strong>, e un SN. Questo costituente può servire da complemento verbale, da<br />
aggiunto o complemento nominale e da secondo termine <strong>di</strong> paragone in una struttura comparativa.<br />
spd-[partd-delle, sn-[n-società]]<br />
spd-[pd-<strong>di</strong>, sn-[n-ricerca]]<br />
sa-[in-più, ag-intelligente, spd-[pd-<strong>di</strong>, sn-[np-Europa]]]]]]<br />
4.2.7 SA<br />
Questo costituente viene creato solo per la posizione pre<strong>di</strong>cativa degli aggettivi e può avere una<br />
struttura interna.<br />
sa-[ag-infelice]<br />
sa-[in-più, ag-intelligente, spd-[pd-<strong>di</strong>, sn-[np-Europa]]]<br />
sa-[agn-inferta, sp-[part-alla, sn-[poss-nostra, n-penisola]]]]<br />
4.2.8 SAVV<br />
Questo costituente ha come testa un avverbiale anche in forma locutiva e può avere una struttura<br />
interna.<br />
savv-[avv-bene]<br />
savv-[avvl-alla_spicciolata]<br />
4.2.9 SQ<br />
Il sintagma quantificato può assumere <strong>di</strong>versi ruoli sintattici:<br />
• può essere uno specificatore del Sintagma Nominale (SN), Sintagmi Avverbiale (SAVV),<br />
oppure del Sintagma Aggettivale (SA) come mostrato negli esempi in basso:<br />
sn-[n-livelli, coord-[sa-[sq-[q-dello, num-0/6%], ag-superiori, sp-[p-a,<br />
sn-[deit-quelli, spd-[partd-del, sn-[nt-bimestre, ag-precedente]]]]],<br />
cong-e, sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccongrispetto_all,<br />
sn-[ag-analogo, nt-periodo, spd-[partd-del, sn-[num-1993]<br />
sn-[sq-[q-una, qd-delle, in-più], ag-importanti, n-zone, sa-[ag-costiere],<br />
fc-[ccom-del, sn-[n-Paese]]<br />
sq-[q-uno, qd-dei, num-primi], n-temi]<br />
sn-[sq-[ind-qualunque, q-altro], n-impiegato, sa-[ag-statale]<br />
sn-[sq-[in-oltre, num-10, num-mila], n-spot, savv-[p-in, avv-più]]<br />
savv-[savv-[avv-forse], sq-[art-un, in-pô], avv-prematuramente]<br />
• Il Sintagma Quantificato può essere un complemento <strong>di</strong> verbi che reggono SN quantificati<br />
come mostrato nei seguenti esempi:<br />
26
Co<strong>di</strong>ce linea e Tema<br />
ibar-[ause-è, vppin-sceso], compin-[sp-[part-nel, sn-[nt-mese, sa-[agcorrente]]],<br />
sq-[q-dell, num-1/1%]]<br />
ibar-[vc-risulta], compc-[sq-[q-del, num-3/7%]]]], fc-[cong-ed, f-[ibar-<br />
[ause-è, vppc-stato], compc-[sq-[q-del, num-4%]], sp-[p-in, sn-[nt-aprile]<br />
ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-2/1%]],<br />
ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-13/5%]]<br />
ibar-[vc-sono, avv-oggi], compc-[sq-[in-più, q-<strong>di</strong>, num-700]<br />
ibar-[clit-si, vin-espande], compin-[sq-[q-del, sn-[num-15/8%]<br />
ibar-[vc-risulta], compc-[sa-[ppas-aumentato, sq-[q-dell, num-1/9%]], fc-<br />
[ccong-rispetto_ai, sn-[num-primi, num-tre, nt-mesi, num-1993]<br />
ibar-[aueir-siano, ausep-stati, vppt-compressi], compt-[sq-[in-più, congdegli,<br />
q-altri]]<br />
ibar-[vc-è], compc-[sq-[in-solo, art-un, num-terzo], fc-[ccong-rispetto_a,<br />
• Il SQ può essere un mo<strong>di</strong>ficatore o aggiunto nelle strutture comparative come mostrato nei<br />
seguenti esempi, in cui è strettamente in relazione al sintagma chiamato DegP in ambito<br />
chomskiano, essendo quin<strong>di</strong> espressione <strong>di</strong> un sintagma <strong>di</strong> grado:<br />
sn-[art-un, n-incremento, fp-[punt-,, sp-[p-in, sn-[n-termini, sa-[agreali]]],<br />
punt-,], sq-[q-del, num-5/6%]]<br />
sq-[in-circa, num-15, num-mila, savv-[p-in, avv-più]]<br />
sa-[ag-maggiore, spd-[pd-<strong>di</strong>, sq-[in-più, cong-<strong>di</strong>, num-un, num-quinto, fc-<br />
[ccom-del, sn-[n-voto<br />
ibar-[ause-è, vppin-aumentata], compin-[sq-[in-ben, cong-<strong>di</strong>, avv-più], fc-<br />
[ccom-<strong>di</strong>, sn-[<strong>di</strong>m-quella, sa-[ag-teorica]<br />
4.2.10 SV2<br />
Questo costituente ha come testa un verbo all’infinito, che può essere preceduto oppure no da<br />
una particella verbale, limitatamente alle seguenti preposizioni a, <strong>di</strong>, da. Tutte le altre preposizioni<br />
introducono un SP e contribuiscono all’interpretazione semantica della frase infinitiva che assume<br />
quin<strong>di</strong> valore <strong>di</strong> aggiunto. Nel caso invece rappresentato dalle particelle verbali, queste ultime<br />
vengono semplicemente assorbire dalla struttura infinitiva e non contribuiscono all’interpretazione<br />
semantica. In genere, la presenza della particella in<strong>di</strong>ca la funzione <strong>di</strong> complemento dell’infinitiva.<br />
Il costituente SV2 viene anche utilizzato per l’infinito passato che ha quin<strong>di</strong> un ausiliare seguito<br />
dal verbo lessicale al participio passato. Inoltre, si costruisce come SV2 anche l’infinito cliticizzato.<br />
Il costituente SV2 contiene i propri complementi e aggiunti, intendendo con aggiunti quelli che<br />
mo<strong>di</strong>ficano il significato del verbo che costituisce la testa lessicale del SV2.<br />
sv2-[pt-<strong>di</strong>, vt-fare, compt-[sn-[n-sol<strong>di</strong>], savv-[avv-rapidamente]]]<br />
sv2-[vcl-averlo, clitac-lo, vppin-chiesto]<br />
27
Co<strong>di</strong>ce linea e Tema<br />
sv2-[pt-<strong>di</strong>, vit-spiegare,<br />
fac-[pk-che,<br />
f-[sn-[ag-simili, n-azioni],<br />
ibar-[neg-non, vin-giovano]]]]<br />
sv2-[viin-uscire, compin-[spda-[partda-dal, sn-[n-casolare]]]]]<br />
sv2-[vit-vincere, compt-[sn-[art-l, npro-America-s__Cup]]]<br />
4.2.11 SV3<br />
Questo costituente ha come testa il participio passato in funzione <strong>di</strong> aggiunto mo<strong>di</strong>ficatore<br />
nominale o frasale. Al suo interno ci sono i complementi e gli aggiunti della testa lessicale. Non<br />
vengono inclusi eventuali avverbiali mo<strong>di</strong>ficatori del participio passato che possono precederlo e la<br />
testa risulta quin<strong>di</strong> essere sempre il primo elemento del costituente - ve<strong>di</strong> quasi fatto = [savv-[inquasi],<br />
sv3-[vppt-fatto]]<br />
sv3-[vppt-controllate]<br />
sv3-[vppt-rivolte, sp-[part-all, sn-[n-Italia]],<br />
spda-[partda-dalla, sn-[n-commissione, sa-[ag-europea]]]]<br />
coord-[sv3-[vppt-controllate],<br />
cong-e,<br />
sv3-[vppt-collegate]]<br />
4.2.12 SV5<br />
Questo costituente ha come testa il gerun<strong>di</strong>o in funzione <strong>di</strong> aggiunto mo<strong>di</strong>ficatore frasale. Al suo<br />
interno ci sono i complementi e gli aggiunti della testa lessicale. Non vengono inclusi eventuali<br />
avverbiali mo<strong>di</strong>ficatori del gerun<strong>di</strong>o che possono precederlo e la testa risulta quin<strong>di</strong> essere sempre il<br />
primo elemento del costituente. Il costituente SV5 viene anche utilizzato per il gerun<strong>di</strong>o passato che<br />
ha quin<strong>di</strong> un ausiliare seguito dal verbo lessicale al participio passato. Inoltre, si costruisce come<br />
SV5 anche il gerun<strong>di</strong>o cliticizzato.<br />
sv5-[vgin-parlando]<br />
sv5-[vgin-sparando, savv-[avvl-all_impazzata]]<br />
sv5-[aueg-essendo, vppin-arrivato, savv-[avv-presto]]<br />
4.2.13 F2<br />
Questo costituente ha la stessa funzione <strong>di</strong> CP, serve cioè a contenere costituenti che sono<br />
anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante.<br />
Possono contenere un SN che come testa abbia un elemento funzionale, il complementatore che,<br />
oppure un pronome relativo preceduto oppure no da un articolo – ve<strong>di</strong> esempi riportati in basso.<br />
Potrà contenere anche un SP per i pronomi relativi obliqui, preceduto da una preposizione semplice<br />
o articolata, oppure in<strong>di</strong>viduati da cui. Il costituente F2 domina sempre invariabilmente un nodo F.<br />
sn-[art-il, n-ragazzo,<br />
f2-[sp-[part-al, rel-quale],<br />
f-[sn-[npro-Gullit],<br />
ibar-[ausa-ha, vppin-parlato]]]]<br />
sn-[art-le, n-imprese, sa-[ag-italiane],<br />
f2-[sn-[rel-che],<br />
f-[<br />
coord-[<br />
28
Co<strong>di</strong>ce linea e Tema<br />
ibar-[vt-producono],<br />
cong-e,<br />
ibar-[vt-importano]],<br />
compt-[sn-[n-energia]]]]]]<br />
4.2.14 F3<br />
Questo costituente è usato per annotare frasi frammento, ovvero frasi che non hanno un IBAR al<br />
loro interno, che sono semplicemente dei costituenti <strong>di</strong> tipo nominale, avverbiale, preposizionale<br />
ecc. privi completamente <strong>di</strong> verbo. Casi tipi <strong>di</strong> strutture F3 sono i titoli. Inclu<strong>di</strong>amo alcuni esempi:<br />
f3-[sn-[npro-intersind, sa-[ag-pronta, sp-[part-al, sn-[poss-suo, n-ingresso,<br />
sp-[p-in, sn-[npro-confindustria]]]]]], punto-.]<br />
f3-[congf-poi, sn-[art-l, n-approvazione, spd-[partd-del, sn-[n-programma,<br />
sp-[p-d, sn-[n-attività]], sv3-[ppas-presentato, compt-[sp-[part-alla, sn-[ngiunta]],<br />
sn-[art-il, num-4, nt-giugno]]]]]], punto-.]<br />
4.2.15 FINT<br />
Questo costituente ha la stessa funzione <strong>di</strong> CP, serve cioè a contenere costituenti che sono<br />
anteposti e che hanno una relazione semantica con qualche elemento nella frase sottostante. In<br />
particolare, come nel caso <strong>di</strong> F2 contiene un SN o un SP che hanno come testa un pronome<br />
interrogativo, preceduto o no da una preposizione.<br />
fint-[sn-[int-chi],<br />
f-[<br />
ibar-[auair-abbia, vppt-incontrato],<br />
compt-[sn-[nh-Maria]]]]<br />
4.2.16 FAC<br />
Questo costituente ha la stessa funzione <strong>di</strong> CP, serve però a contenere soltanto la testa <strong>di</strong> CP, C°,<br />
cioè il complementatore che, che in certi contesti può anche essere vuoto. In questi casi però il nodo<br />
FAC verrà eliminato. Il nodo FAC può apparire nel contesto <strong>di</strong> un complemento verbale come<br />
COMPT oppure in posizione estraposta, all’inizio frase, sotto CP:<br />
compt-[fac-[pk-che,<br />
f-[<br />
ibar-[clit-c, vc-era],<br />
compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]]]]<br />
cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]],<br />
ibar-[vt-significa],<br />
compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]<br />
4.2.17 COMPT<br />
Questo costituente ha la funzione <strong>di</strong> in<strong>di</strong>viduare tutti i complementi <strong>di</strong> verbi transitivi. Contiene<br />
tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai<br />
complementi obbligatori, quin<strong>di</strong> contiene i complementi opzionali. Questo costituente contiene<br />
inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad in<strong>di</strong>viduare delle<br />
modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti<br />
29
Co<strong>di</strong>ce linea e Tema<br />
spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei<br />
complementi.<br />
Questo costituente contiene anche il SN soggetto posposto <strong>di</strong> frasi passive o invertite per motivi<br />
<strong>di</strong> carattere informazionale, pragmatico o semantico.<br />
ibar-[auair-abbia, vppt-incontrato],<br />
compt-[sn-[nh-Maria]]<br />
ibar- [vt-promise],<br />
compt-[sp-[p-a, sn-[nh-Maria]], sv2-[pt-<strong>di</strong>, viin-partire]]<br />
ibar-[ausa-ha, vppt-promesso],<br />
compt-[sv2-[pt-<strong>di</strong>, vit-accettare, sn-[art-il, n-lavoro]]]<br />
ibar-[vt-informò],<br />
compt-[sn-[nh-Maria], spd-[partd-del, sn-[poss-suo, n-arrivo]]]<br />
ibar-[vt-importa],<br />
compt-[spda-[partda-dalla, sn-[npro-Union_Carbide]]]<br />
ibar-[vt-decise],<br />
compt-[sv2-[pt-<strong>di</strong>, viin-partire]]<br />
ibar-[ausa-ha, vppt-visto],<br />
compt-[sn-[n-Paolo], sv2-[viin-uscire, spda-[partda-dal, sn-[n-casolare]]]]<br />
ibar-[vt-considerava],<br />
compt-[sn-[art-i, n-siciliani],<br />
sn-[art-il, n-popolo, sa-[in-più, ag-intelligente,<br />
spd-[pd-<strong>di</strong>, sn-[np-Europa]]]]]<br />
ibar-[ausa-ha, vppt-detto],<br />
compt-[fac-[pk-che, f-[ibar-[ausa-avrebbe, vppt-accettato],<br />
compt-[sn-[art-il, n-lavoro]]]]]]<br />
4.2.18 COMPIN<br />
Questo costituente ha la funzione <strong>di</strong> in<strong>di</strong>viduare tutti i complementi <strong>di</strong> verbi intransitivi. Con<br />
verbi intransitivi si intendono perlomeno i seguenti tipi sintattici: verbi inaccusativi, verbi<br />
inergativi, verbi atmosferici, verbi impersonali.<br />
Contiene tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre<br />
ai complementi obbligatori, quin<strong>di</strong> contiene i complementi opzionali. Questo costituente contiene<br />
inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad in<strong>di</strong>viduare delle<br />
modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti<br />
spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei<br />
complementi.<br />
Questo costituente contiene anche il SN soggetto posposto <strong>di</strong> frasi invertite per motivi <strong>di</strong><br />
carattere informazionale, pragmatico o semantico. Casi particolari sono costituiti da frasi ergative,<br />
frasi con il si impersonale, frasi con verbi riflessivi inerenti.<br />
ibar-[vin-esce],<br />
compin-[sp-[part-allo, sn-[n-scoperto]]]<br />
ibar-[vin-arrivai],<br />
compin-[sp-[p-in, sn-[n-ritardo]]]<br />
30
Co<strong>di</strong>ce linea e Tema<br />
4.2.19 COMPC<br />
Questo costituente ha la funzione <strong>di</strong> in<strong>di</strong>viduare il complemento <strong>di</strong> verbi copulativi. Contiene<br />
tutti i costituenti che servono da complementi del verbo e sono retti lessicalmente; oltre ai<br />
complementi obbligatori, quin<strong>di</strong> contiene i complementi opzionali. Questo costituente contiene<br />
inoltre anche gli aggiunti del verbo, tutti quei circostanziali che servono ad in<strong>di</strong>viduare delle<br />
modalità specifiche dell’azione connotata dal significato del verbo reggente. Gli aggiunti<br />
spaziotemporali sono inclusi a livello più alto, altro che non costituiscano essi stessi dei<br />
complementi, come ad esempio nel caso <strong>di</strong> una pre<strong>di</strong>cazione <strong>di</strong> Locativi ripresi oppure no dal ci.<br />
ibar-[clit-c, vc-era],<br />
compc-[sn-[nh-Maria], sp-[p-con, sn-[npro-Luigi]]]<br />
ibar-[clit-’C’, vc-è],<br />
compc-[sn-[art-una, n-vespa], sp-[part-nella, sn-[poss-mia, n-camera]]]<br />
4.2.18 COORD<br />
COORD/Nome <strong>di</strong> costituente serve per coor<strong>di</strong>nare costituenti tra <strong>di</strong> loro e nel caso <strong>di</strong> SN ad<br />
assegnare numero plurale all’insieme creato dai due o più SN coor<strong>di</strong>nati. Questo costituente<br />
comprende due tipi <strong>di</strong> teste: la congiunzione coor<strong>di</strong>nate in<strong>di</strong>viduata da “cong-e” oppure un segno <strong>di</strong><br />
punteggiatura, “punt-,”. Le strutture coor<strong>di</strong>nate possono contenere liste e frasi ellittiche che nel<br />
Penn <strong>Treebank</strong> vengono in<strong>di</strong>cate da costituenti appositi LST e FRAG. Abbiamo scelto <strong>di</strong> non<br />
introdurre marche specializzate per questo tipo <strong>di</strong> strutture in quanto la nostra rappresentazione non<br />
include le categorie vuote. Abbiamo invece trattato a parte le frasi coor<strong>di</strong>nate, che potrebbero<br />
oppure no prevedere strutture ellittiche, con un costituente separato FC (ve<strong>di</strong> sotto).<br />
coord-[sn-[art-I, n-superstiti],<br />
cong-e,<br />
sn-[art-i, n-parenti, spd-[partd-delle, sn-[n-vittime]]]]<br />
coord-[sv3-[vppt-controllate],<br />
cong-e,<br />
sv3-[vppt-collegate]]<br />
coord-[<br />
ibar-[vt-producono],<br />
cong-e,<br />
ibar-[vt-importano]],<br />
compt-[sn-[n-energia]]]<br />
compin-[coord-[<br />
sp-[part-all, sn-[n-aumento, spd-[pd-<strong>di</strong>, sn-[n-capitale]]]],<br />
punt-,<br />
sp-[part-all, n-utile, spd-[pd-<strong>di</strong>, sn-[n-esercizio]]],<br />
cong-ed,<br />
sp-[part-ai, sn-[n-contributi,<br />
sp-[p-per, sn-[art-l, n-e<strong>di</strong>toria]]]]]<br />
coord-[sp-[part-sui, sn-[n-pedatori, sp-[p-a, sn-[n-<strong>di</strong>sposizione]]]],<br />
cong-e,<br />
sp-[part-sui, sn-[n-tecnici]]]]<br />
coord-[ibar-[ausa-ha, vppt-confermato],<br />
compt-[sn-[npro-Eugenio, npro-Scalfari]],<br />
cong-ed,<br />
ibar-[ausa-ha, vppt-deliberato],<br />
compt-[sv2-[pt-<strong>di</strong>, vit-aumentare],<br />
sn-[art-il, n-numero, spd-[partd-dei, sn-[n-consiglieri]]]]]<br />
coord-[spda-[pda-da, sn-[npro-Sting]],<br />
31
Co<strong>di</strong>ce linea e Tema<br />
punt-,<br />
sn-[npro-Jenny, spd-[partd-dei, sn-[n-pirati]]],<br />
cong-e,<br />
spda-[partda-dalla, sn-[npro-Nannini]]]]]<br />
fc-[<br />
f-[sn-[ind-Molti],<br />
ibar-[vt-<strong>di</strong>ranno],<br />
fac-[pk-che, f-[ibar-[vc-è],<br />
compc-[sn-[art-il, n-trionfo,<br />
spd-[partd-della, sn-[n-marcatura,<br />
sp-[p-a, sn-[n-uomo]]]]]]]]],<br />
punt-,<br />
f-[sn-[pron-io],<br />
compt-[fac-[intj-no]]]]<br />
4.2.19 FC<br />
Un sottocaso <strong>di</strong> coor<strong>di</strong>nazione è costituito dalla coor<strong>di</strong>nazione <strong>di</strong> frasi, una delle quali ellittica,<br />
che viene demarcata da un costituente esplicito, FC.<br />
fc-[f-[sn-[art-Gli, n-esempi],<br />
ibar-[ause-sono, vppt-scritti],<br />
compt-[sp-[p-in, sn-[n-corsivo]]]],<br />
punt-,<br />
f-[sn-[art-le, n-glosse],<br />
compt-[sp-[p-in, sn-[n-stampatello]]]]]<br />
Inoltre il costituente FC è usato anche per l’annotazione della seguente tipologia <strong>di</strong> casi:<br />
• frasi coor<strong>di</strong>nate dalla punteggiatura come il punto e virgola;<br />
• frasi o costituenti ellittici coor<strong>di</strong>nati da congiunzione comparativa che esemplifichiamo qui in<br />
basso.<br />
Seguono alcuni esempi:<br />
sa-[ag-invariato], fc-[ccong-rispetto_a, sn-[nt-febbraio]<br />
sa-[ag-superiore]], fc-[ccong-rispetto_a, sn-[art-un, nt-anno, savv-[avvlfa]]<br />
sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo,<br />
nt-periodo, spd-[partd-del, sn-[num-1993]<br />
fc-[ccong-come, f-[ibar-[vt-chiedono], compt-[sn-[art-gli, n-ospedalieri]<br />
fc-[ccong-più, coord-[spda-[pda-da, sn-[n-nervosismo]], cong-e, spda-[partdadai,<br />
sn-[ag-normali, n-movimenti]]], cong-che, spda-[pda-da, sn-[art-un, n-<br />
cambiamento, spd-[pd-<strong>di</strong>, sn-[n-vedute, sp-[part-sulle, sn-[n-prospettive,<br />
spd-[partd-del, sn-[n-rischio_italia]<br />
fc-[ccong-come, f-[ibar-[ausa-ha, vppt-spiegato], compt-[savv-[avv-ieri], sn-<br />
[nh-mandela]<br />
fc-[ccong-come, f-[ibar-[clit-si, vt-vede], compt-[spda-[partda-dalla, sn-[ntabella]<br />
fc-[ccong-come, sv3-[ppas-detto]<br />
32
Co<strong>di</strong>ce linea e Tema<br />
fc-[ccong-rispetto_a, sn-[f2-[relq-quanto, f3-[sv3-[ppas-prodotto, compt-[sp-<br />
[part-nella, ag-scorsa, sn-[nt-stagione]<br />
fc-[ccong-come, f-[sn-[n-logica], ibar-[virt-porterebbe], compt-[sv2-[sp-[pta,<br />
vit-dedurre]<br />
ibar-[ausa-ha, vppt-sottolineato], compt-[fc-[ccong-come, f-[sn-[art-il, n-<br />
Registro, spd-[partd-delle, sn-[n-imprese]]], ibar-[virt-marchi], compt-[sn-<br />
[art-il,<br />
4.2.20 FP<br />
Con FP si in<strong>di</strong>ca la presenza <strong>di</strong> punteggiatura nel testo che può servire successivamente ad<br />
in<strong>di</strong>viduare una eventuale frase parentetica o appositiva, o semplicemente a marcare la spezzatura<br />
del testo in parti informativamente <strong>di</strong>fferenti. Con FP sono designati ad esempio, gli aggiunti aperti<br />
del tipo participiale posti dopo la testa che li governa. Le strutture appositive possono essere anche<br />
aggiunti <strong>di</strong> tipo chiuso, mo<strong>di</strong>ficatori o attributi. Le parentetiche possono essere frasi <strong>di</strong> commento,<br />
in forma anche ellittica racchiuse tra due simboli <strong>di</strong> punteggiatura.<br />
cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]],<br />
fp-[punt-,],<br />
f-[sn-[npro-Giovanni], ibar-[vt-vide],<br />
compt-[ [sn-[qc-tutta, art-la, n-partita]]]]<br />
cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]],<br />
fp-[punt-,],<br />
f-[sn-[nh-Maria], ibar-[vin-partì]]]<br />
f-[ibar-[vin-slitta],<br />
sn-[art-la, n-riunione,<br />
fp-[punt-,], f-[sv3-[vppt-prevista], sp-[p-per, sn-[n-oggi]],<br />
fp-[punt-,],<br />
spd-[partd-della, sn-[ag-cosiddetta, n-commissione, nh-sangalli]]]]<br />
4.2.21 CP<br />
Come già chiarito in precedenza, il costituente CP viene usato per contenere genericamente tutti i<br />
costituenti <strong>di</strong>slocati che sono stati anteposti o preposti a seguito <strong>di</strong> processi sintattici. In particolare,<br />
processi come la <strong>di</strong>slocazione a sinistra o la estraposizione esemplificata più in basso sono casi in<br />
questione. CP è anche la marca che viene utilizzata per le frasi interrogative con elemento wh- del<br />
tipo <strong>di</strong> chi, che cosa, quando, perché, ecc.<br />
Il costituente CP viene utilizzato genericamente per tutte quelle frasi che non iniziano con il SN<br />
SOGGetto o con il gruppo verbale IBAR, ma con un aggiunto come un SP o un SAVV, oppure con<br />
frasi a tempo indefinito come le gerun<strong>di</strong>ve o le participiali, esemplificate più in basso. Inoltre, CP<br />
funge da nodo padre per strutture <strong>di</strong> frasi complesse, cioè <strong>di</strong> frasi composte da una frase subor<strong>di</strong>nata<br />
e una frase principale semplice. Altri esempi <strong>di</strong> questi casi sono stati inseriti nella sezione<br />
successiva de<strong>di</strong>cata a FS in quanto parte integrante <strong>di</strong> rappresentazione <strong>di</strong> perio<strong>di</strong>.<br />
Che Maria sia partita significa che si è arresa.<br />
cp-[fac-[pk-che, f-[sn-[nh-Maria], ibar-[aueir-sia, vppin-partita]]],<br />
f-[ibar-[vt-significa],<br />
compt-[fac-[pk-che, f-[ibar-[clit-si, ause-è, vppt-arresa]]]]]]<br />
Essendo arrivato presto, Giovanni vide tutta la partita.<br />
cp-[sv5-[aueg-essendo, vppt-arrivato, savv-[avv-presto]],<br />
33
Co<strong>di</strong>ce linea e Tema<br />
fp-[punt-,],<br />
f-[sn-[npro-Giovanni],<br />
ibar-[vt-vide],<br />
compt-[sn-[qc-tutta, art-la, n-partita]]]]<br />
Finito il lavoro, Maria partì.<br />
cp-[sv3-[vppt-finito, sn-[art-il, n-lavoro]],<br />
fp-[punt-,],<br />
f-[sn-[nh-Maria], ibar-[vin-partì]]]<br />
Che i governi europei debbano silenziosamente ingoiarle non è giusto.<br />
cp-[fac-[pk-Che, f-[sn-[art-i, n-governi, ag-europei],<br />
ibar-[vsupir-debbano, avv-silenziosamente, vcl-ingoiarle,<br />
compt-[clitac-le]]]],<br />
f-[ibar-[neg-non, vc-è], svc-[sa-[ag-giusto]]]]<br />
In cambio delle attrezzature e della <strong>di</strong>sponibilità del sito, le università<br />
americane e giapponesi coinvolte nell’esperimento pagheranno le molte e<br />
carissime tonnellate <strong>di</strong> argon liquido che serviranno a verificare se e quando il<br />
protone decade.<br />
cp-[sp-[p-in, sn-[n-cambio],<br />
coord-[spd-[partd-delle, sn-[n-attrezzature]],<br />
cong-e,<br />
spd-[partd-della, sn-[n-<strong>di</strong>sponibilità,<br />
spd-[partd-del, sn-[n-sito]]]]]],<br />
fp-[punt-,],<br />
f-[sn-[art-le, n-università,<br />
coord-[sa-[ag-americane],<br />
cong-e,<br />
sa-[ag-giapponesi]],<br />
sv3-[vppt-coinvolte, sp-[part-nell, sn-[n-esperimento]]]],<br />
ibar-[vt-pagheranno],<br />
compt-[sn-[art-le,<br />
coord-[sa-[ind-molte],<br />
cong-e,<br />
sa-[ag-carissime]],<br />
n-tonnellate, spd-[pd-<strong>di</strong>, sn-[n-argon], sa-[ag-liquido]],<br />
f2-[rel-che, ibar-[vt-serviranno],<br />
compt-[sv2-[pt-a, vit-verificare,<br />
compt-[<br />
cp-[cosu-se, cong-e, cosu-quando,<br />
f-[sn-[art-il, n-protone],<br />
ibar-[vin-decade],<br />
f-[punto-.]]]]]]]]]]]<br />
4.2.22 FS e CP<br />
Il costituente FS viene utilizzato in presenza <strong>di</strong> un elemento linguistico che funga da<br />
subor<strong>di</strong>natore, quin<strong>di</strong> per tutte le frasi subor<strong>di</strong>nate. Normalmente le frasi subor<strong>di</strong>nate sono<br />
accompagnate da frasi principali, ma non è sempre così come mostrato da un esempio sottostante.<br />
Oppure, se si vuol parlare <strong>di</strong> applicazioni, sarà bene ricordare che sono fisici<br />
anche tutti coloro che si occupano <strong>di</strong> laser, per materiali per l’elettronica, <strong>di</strong><br />
superfreddo e superconduttività.<br />
Perché i fisici delle particelle sono alla ribalta molto più spesso dei loro<br />
colleghi che si occupano <strong>di</strong> laser o <strong>di</strong> stato solido? “Prima <strong>di</strong> tutto”, risponde<br />
Roberto Fieschi, docente <strong>di</strong> fisica dello stato solido dell’Università <strong>di</strong> Parma,<br />
“perché i fisici nucleari e subnucleari hanno il loro istituto, l’Infn, agile<br />
ed efficiente malgrado le pastoie del parastato. Mentre gli altri gruppi <strong>di</strong><br />
ricercatori fisici sono <strong>di</strong>spersi negli istituti e nei centri del Cnr, e soffrono<br />
tutte le ben note <strong>di</strong>fficoltà <strong>di</strong> questo ente.”<br />
cp-[fc-[cong-Oppure],<br />
fp-[punt-,],<br />
fs-[cosu-se,<br />
f-[ibar-[clit-si, vsup-vuol, vit-parlare],<br />
compin-[spd-[pd-<strong>di</strong>, sn-[n-applicazioni]]]]],<br />
34
Co<strong>di</strong>ce linea e Tema<br />
fp-[punt-,],<br />
f-[ibar-[clit-si, vit-ricorderà],<br />
compt-[fac-[pk-che,<br />
f-[ibar-[vc-sono, svc-[sa-[ag-fisici]]],<br />
sn-[in-anche, qc-tutti, deit-coloro,<br />
f2-[rel-che, ibar-[clit-si, vt-occupano],<br />
compin-[<br />
coord-[spd-[pd-<strong>di</strong>, sn-[n-laser]],<br />
fp-[punt-,],<br />
sp-[p-per, sn-[n-materiali],<br />
sp-[p-per, sn-[art-l, n-elettronica]]],<br />
fp-[punt-,],<br />
spd-[pd-<strong>di</strong>, sn-[n-superfreddo]],<br />
cong-e,<br />
sn-[n-superconduttività]]],<br />
f-[punto-.]]]]]]]]<br />
cp-[cosu-Perché,<br />
f-[sn-[art-i, n-fisici, spd-[partd-delle, sn-[n-particelle]]],<br />
ibar-[vc-sono],<br />
svc-[sp-[part-alla, sn-[n-ribalta]], savv-[in-molto, in-più, avv-spesso],<br />
spd-[partd-dei, sn-[poss-loro, n-colleghi,<br />
f2-[rel-che, ibar-[clit-si, vt-occupano],<br />
coord-[spd-[pd-<strong>di</strong>, sn-[n-laser]],<br />
cong-o,<br />
spd-[pd-<strong>di</strong>, n-stato, sa-[ag-solido]]],<br />
f-[puntint- ?]]]]]]]<br />
cp-[fp-[par-”],<br />
sp-[php-prima_<strong>di</strong>, sa-[avv-tutto]],<br />
fp-[par-”],<br />
fp-[punt-,],<br />
f-[ibar-[vin-risponde],<br />
sn-[nh-roberto_fieschi],<br />
fp-[punt-,],<br />
sn-[n-docente, spd-[pd-<strong>di</strong>, sn-[n-fisica_dello_stato_solido]],<br />
spd-[partd-dell, sn-[n-Università, spd-[pd-<strong>di</strong>, sn-[np-Parma]]]]]],<br />
fp-[punt-,],<br />
fp-[par-”],<br />
fs-[cosu-perché,<br />
f-[sn-[art-i, n-fisici,<br />
coord-[sa-[ag-nucleari],<br />
cong-e,<br />
sa-[ag-subnucleari]]],<br />
ibar-[vc-hanno],<br />
compc-[sn-[art-il, poss-loro, n-istituto],<br />
fp-[punt-,],<br />
sn-[art-l, npro-Infn],<br />
fp-[punt-,],<br />
coord-[sa-[ag-agile,<br />
cong-ed,<br />
sa-[ag-efficiente]]]],<br />
fs-[cong-malgrado,<br />
f-[sn-[art-le, n-pastoie, spd-[partd-del, sn-[n-parastato]]]]],<br />
f-[punto-.]]]]<br />
fs-[cosu-Mentre,<br />
f-[sn-[art-gli, ag-altri, n-gruppi,<br />
spd-[pd-<strong>di</strong>, sn-[n-ricercatori], sn-[ag-fisici]]],<br />
ibar-[ause-sono, vppt-<strong>di</strong>spersi],<br />
compin-[coord-[<br />
sp-[part-negli, sn-[n-istituti]],<br />
cong-e,<br />
sp-[part-nei, sn-[n-centri, spd-[partd-del, sn-[npro-Cnr]]]]]]],<br />
fp-[punt-,],<br />
fc-[cong-e,<br />
f-[ibar-[vt-soffrono],<br />
compt-[sn-[qc-tutte, art-le, in-ben, ag-note, n-<strong>di</strong>fficoltà,<br />
spd-[pd-<strong>di</strong>, sn-[<strong>di</strong>m-questo, n-ente]]]],<br />
35
Co<strong>di</strong>ce linea e Tema<br />
f-[punto-.]]]]<br />
fp-[par-”],<br />
4.2.23 CP_INT<br />
Questo costituente serve per marcare frasi interrogative che iniziano con aggiunti oppure<br />
congiunzioni frasali subor<strong>di</strong>nanti o coor<strong>di</strong>nanti, o ancora frasi interrogative frammento.<br />
cp_int-[sn-[n-Effetto, sn-[npro-Multiplex]], par-(-), fint-[sn-[int-Quali],<br />
f-[ibar-[vc-sono], compc-[sn-[art-gli, n-effetti, spd-[pd-<strong>di</strong>, sn-[<strong>di</strong>m-questa,<br />
n-concentrazione, sp-[p-tra, sn-[coord-[n-<strong>di</strong>stribuzione, cong-ed, n-<br />
esercizio]]]]]]]]], puntint-?]<br />
cp_int-[fc-[congf-Ma, savv-[avv-oggi], punt-,, sp-[p-con, coord-[sn-[art-i,<br />
n-cd_rom], cong-e, sn-[art-la, n-multime<strong>di</strong>alità]]], punt-,, f-[ibar-[vc-è],<br />
compc-[sn-[in-davvero, art-lo, ag-stesso, n-mestiere, spd-[pd-<strong>di</strong>, sn-[num-<br />
500, nt-anni, savv-[avvl-fa]]]]]], puntint-?]],<br />
cp_int-[f3-[coord-[sn-[nt-fine, spd-[partd-delle, sn-[n-ambizioni]]], cong-o,<br />
sn-[ag-ennesimo, n-voltafaccia]], sp-[p-su, sn-[art-una, n-vicenda, f2-[sp-<br />
[part-sulla, rel-quale], f-[sn-[np-mosca], sp-[part-negli, sn-[ag-ultimi, ntmesi]],<br />
ibar-[neg-non, ausa-ha, vppt-cessato], compt-[coord-[sv2-[pt-<strong>di</strong>, vitcambiare,<br />
compt-[sn-[n-posizioni]]], punt-,, sv2-[pt-<strong>di</strong>, vit-<strong>di</strong>re, compt-<br />
[coord-[sn-[qc-tutto], cong-e, sn-[art-il, n-contrario, spd-[pd-<strong>di</strong>, sn-[qctutto]]]]]]]]]]]]],<br />
puntint-?]<br />
4.2.24 DIRSP<br />
Questo costituente serve per l'annotazione del <strong>di</strong>scorso <strong>di</strong>retto: contiene due frasi separate dal<br />
segno <strong>di</strong> punteggiatura ":". Questo segno è però ambiguo tra <strong>di</strong>scorso <strong>di</strong>retto, <strong>di</strong>scorso riportato,<br />
commento ecc., riportiamo qui un solo esempio:<br />
<strong>di</strong>rsp-[f-[sn-[art-il, n-traino, sa-[in-più, ag-consistente]], ibar-[vinviene],<br />
compin-[savv-[avv-sempre], spda-[partda-dalle, sn-[n-ven<strong>di</strong>te, sp-<br />
[part-all, sn-[n-estero]]]]]], <strong>di</strong>rs-:, f-[sn-[art-il, num-plus9/5%, n-<br />
tendenziale, spd-[pd-<strong>di</strong>, sn-[nt-maggio]]], punt-,, sp-[p-contro, coord-[sn-<br />
[art-il, num-6%, spd-[pd-<strong>di</strong>, sn-[nt-marzo]]], cong-e, sn-[art-il, num-7/4%,<br />
spd-[pd-<strong>di</strong>, sn-[nt-aprile]]]]], punto-.]]<br />
4.3 Tipologia dei costituenti sintattici della <strong>Treebank</strong> <strong>di</strong> SI-TAL<br />
Riassumendo, nella tabella che segue è riportata la tipologia dei costituenti sintattici che<br />
appaiono nella rappresentazione sintattica a costituenti della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />
Simbolo<br />
F<br />
SN<br />
SA<br />
SP<br />
SPD<br />
SPDA<br />
SAVV<br />
Tipo <strong>di</strong> costituente<br />
frase<br />
sintagma nominale<br />
sintagma aggettivale<br />
sintagma preposizionale<br />
sintagma preposizionale DI<br />
sintagma preposizionale DA<br />
sintagma avverbiale<br />
36
Co<strong>di</strong>ce linea e Tema<br />
Simbolo<br />
SQ<br />
IBAR<br />
SV2<br />
SV3<br />
SV5<br />
FAC<br />
FC<br />
FS<br />
FINT<br />
FP<br />
F2<br />
F3<br />
CP<br />
CP_INT<br />
COORD/co<br />
stituente<br />
COMPT<br />
COMPIN<br />
COMPC<br />
DIRSP<br />
Tipo <strong>di</strong> costituente<br />
sintagma quantificato<br />
nucleo verbale a tempo finito<br />
frase infinitiva<br />
frase participiale<br />
frase gerun<strong>di</strong>va<br />
frase complemento<br />
Coor<strong>di</strong>natore frase coor<strong>di</strong>nata<br />
Subor<strong>di</strong>natore frase subor<strong>di</strong>nata<br />
Elementi +wh frase interrogativa<br />
Introduttore punteggiatura frase parentetica o<br />
apposizione, o separatore testo<br />
Frase relativa<br />
Frase frammento<br />
Elementi <strong>di</strong>slocati o anteposti, aggiunti frasali e non<br />
Frase interrogativa con aggiunti in inizio frase<br />
Elemento coor<strong>di</strong>nante e costituente coor<strong>di</strong>nato<br />
Complementi retti da VerbiTransitivi<br />
Complementi retti da Verbi Intransitivi<br />
Complementi retti da Verbi Copulativi<br />
Discorso <strong>di</strong>retto<br />
Prima <strong>di</strong> passare ai criteri <strong>di</strong> annotazione per questo livello, forniremo una classificazione dei<br />
costituenti, sulla base <strong>di</strong> come questi riorganizzano i materiali lessicali al proprio interno. In<br />
particolare, possiamo parlare dei seguenti tipi <strong>di</strong> costituenti:<br />
• costituenti funzionali: includono tutti quei costituenti che al proprio interno non prevedono la<br />
presenza <strong>di</strong> una testa lessicale semantica, oppure come nel caso dei gruppi preposizionali, che<br />
non sono completi semanticamente senza la presenza <strong>di</strong> un ulteriore costituente. I costituenti<br />
funzionali si sud<strong>di</strong>vidono a loro volta in:<br />
• costituenti Funzionali Strutturali, che sono privi <strong>di</strong> una qualsiasi testa lessicale che li<br />
in<strong>di</strong>vidui;<br />
• costituenti Funzionali Lessicali, che hanno obbligatoriamente una testa lessicale che ha<br />
oppure no contenuto semantico;<br />
• costituenti Sostanziali, che contengono teste lessicali semantiche.<br />
4.3.1 Costituenti Funzionali Strutturali<br />
Simbolo<br />
F<br />
CP<br />
COMPT<br />
COMPIN<br />
COMPC<br />
Tipo <strong>di</strong> costituente<br />
frase<br />
Elementi <strong>di</strong>slocati o anteposti, aggiunti frasali e non<br />
Complementi retti da Verbi Transitivi<br />
Complementi retti da Verbi Intrasitivi<br />
Complementi retti da Verbi Copulativi<br />
37
Co<strong>di</strong>ce linea e Tema<br />
4.3.2 Costituenti Funzionali Lessicali<br />
Simbolo<br />
FAC<br />
FC<br />
FS<br />
FINT<br />
FP<br />
F2<br />
COORD/costituente<br />
SP<br />
SPD<br />
SPDA<br />
Tipo <strong>di</strong> costituente<br />
frase complemento con o senza complementatore<br />
Coor<strong>di</strong>natore frase coor<strong>di</strong>nata<br />
Subor<strong>di</strong>natore frase subor<strong>di</strong>nata<br />
Elementi +wh frase interrogativa, anche se il<br />
pronome interrogativo è preceduto da preposizione<br />
Introduttore punteggiatura frase parentetica o<br />
apposizione<br />
Frase relativa, anche se il pronome relativo è<br />
preceduto da preposizione o da articolo<br />
Elemento coor<strong>di</strong>nante e costituente coor<strong>di</strong>nato<br />
sintagma preposizionale<br />
sintagma preposizionale DI<br />
sintagma preposizionale DA<br />
Possiamo notare che nel caso in cui il costituente CP non ha motivo per la sua presenza nella<br />
struttura, cioè nella frase non ci sono costituenti anteposti o aggiunti <strong>di</strong> inizio frase, esso non<br />
apparirà. Per quanto riguarda il nodo F invece, esso apparirà anche se il soggetto non fosse espresso<br />
lessicalmente: risulterà quin<strong>di</strong> in<strong>di</strong>cativo delle frasi in cui appare il nodo IBAR, cioè il verbo flesso<br />
<strong>di</strong> tempo definito. Il nodo F apparirà nelle frasi ellittiche ma non nelle frasi <strong>di</strong> modo indefinito che<br />
sono invece in<strong>di</strong>viduate da no<strong>di</strong> SV con numeri che li <strong>di</strong>fferenziano.<br />
4.3.3 Costituenti Sostanziali<br />
Simbolo<br />
SN<br />
SA<br />
SAVV<br />
IBAR<br />
SV2<br />
SV3<br />
SV5<br />
Tipo <strong>di</strong> costituente<br />
sintagma nominale<br />
sintagma aggettivale<br />
sintagma avverbiale<br />
nucleo verbale a tempo finito<br />
frase infinitiva<br />
frase participiale<br />
frase gerun<strong>di</strong>va<br />
Anche in questo caso è necessario notare che il costituente IBAR non potrà mai apparire da solo,<br />
ma sempre in compagnia del suo nodo dominante F.<br />
4.4 Criteri <strong>di</strong> annotazione<br />
In questa sezione sono forniti criteri <strong>di</strong> annotazione per quanto concerne il livello sintattico a<br />
costituenti. In particolare, verranno prese in considerazione particolari costruzioni sintattiche e se ne<br />
specificherà il trattamento nell’ambito dello schema <strong>di</strong> annotazione adottato.<br />
38
Co<strong>di</strong>ce linea e Tema<br />
4.4.1 Costituenti minori, Mo<strong>di</strong>ficatori e Marcatori Semantici<br />
Nel SN, i determinatori e i mo<strong>di</strong>ficatori sia che precedano la testa o che la seguano vengono<br />
inclusi allo stesso livello della testa nominale. Mentre i determinatori sono privi <strong>di</strong> costituenza, tutti<br />
gli altri mo<strong>di</strong>ficatori portano la loro struttura sintattica. Si suppone che i determinatori (intendendo<br />
con questo termine articoli, quantificatori <strong>di</strong> vario genere, numeri) dovranno poi essere rappresentati<br />
nella funzione SPEC(ificatore).<br />
I complementatori vengono trattati come i determinatori, sono cioè privi <strong>di</strong> costituenza sintattica<br />
ma appaiono ad un livello separato: questo crea i presupposti per il loro trattamento al livello della<br />
rappresentazione funzionale, per il quale si rinvia alla sezione 5.1.1.1.2.1.<br />
Il processo <strong>di</strong> innalzamento si applica tipicamente alle informazioni associate al nucleo verbale,<br />
oppure a teste semantiche che introducono frasi subor<strong>di</strong>nate e coor<strong>di</strong>nate. Il nucleo verbale <strong>di</strong> modo<br />
finito, intendendo con la parola nucleo non solo il verbo principale ma anche i suoi ausiliari, si trova<br />
sempre associato a un costituente separato, IBAR. Per quanto riguarda invece i nuclei verbali <strong>di</strong><br />
modo non finito - infinito, participio e gerun<strong>di</strong>o semplici o composti - questi vengono tutti<br />
in<strong>di</strong>viduati da SVn, dove “n” sta per un numero che serve a specializzare il SV.<br />
La negazione viene trattata come avverbio ed è quin<strong>di</strong> <strong>di</strong>sponibile successivamente per essere<br />
interpretata al livello <strong>di</strong> rappresentazione adeguato, che però rimane al <strong>di</strong> fuori dei livelli previsti<br />
per la <strong>Treebank</strong> <strong>di</strong> SI-TAL: in ogni caso, tutte le eventuali operazioni semantiche <strong>di</strong> in<strong>di</strong>viduazione<br />
della portata o ambito della negazione potranno essere realizzate sia a partire dalla struttura<br />
sintattica, sia da quella funzionale.<br />
4.4.2 Costituenti vuoti<br />
La teoria LFG e tutte le sue derivazioni non prevedono nella rappresentazione sintattica la<br />
presenza <strong>di</strong> elementi vuoti. In pratica, la rappresentazione sintattica contiene tutto e solo il materiale<br />
lessicale <strong>di</strong> struttura superficiale. Questa è la strategia che si è deciso <strong>di</strong> seguire anche nel caso dello<br />
schema <strong>di</strong> annotazione a costituenti <strong>di</strong> SI-TAL.<br />
In particolare tutte le operazioni <strong>di</strong> raccordo tra elementi <strong>di</strong>slocati o spostati e il loro sito<br />
canonico - ve<strong>di</strong> il soggetto postverbale, l’oggetto preposto - non richiedono nella rappresentazione<br />
sintattica l’introduzione <strong>di</strong> tracce e altri tipi <strong>di</strong> elementi vuoti come marcaposto. E’ invece il livello<br />
funzionale a rendere conto delle relative relazioni <strong>di</strong> <strong>di</strong>pendenza. Lo stesso <strong>di</strong>scorso vale per le frasi<br />
passive, anche nel caso in cui il soggetto si trovi nella posizione preverbale canonica.<br />
Stessa sorte tocca a relazioni <strong>di</strong> <strong>di</strong>pendenza definite in LFG “a lunga <strong>di</strong>stanza”, cioè tutte quelle<br />
relazioni che si creano per la presenza <strong>di</strong> un pronome interrogativo o relativo, o del<br />
complementatore che: in nessun caso, appare nella struttura sintattica un costituente vuoto a fare da<br />
marcaposto. Queste relazioni vengono trattate nel livello funzionale, secondo le modalità illustrate<br />
nella sezione 5.2.5.<br />
Il soggetto vuoto non appare a livello <strong>di</strong> rappresentazione a costituenti, e viene introdotto al<br />
livello funzionale; per la sua rappresentazione si rinvia alle sezioni 5.1.1.1.1 e 5.2.4.1.<br />
Lo stesso ragionamento vale per il soggetto inespresso <strong>di</strong> frasi implicite <strong>di</strong> modo non finito, sia<br />
che si tratti <strong>di</strong> complementi o <strong>di</strong> aggiunti. Benché la teoria preveda operazioni ben <strong>di</strong>stinte in un<br />
caso o nell’altro, si sceglie <strong>di</strong> trattare entrambi i casi allo stesso modo. Nella struttura sintattica non<br />
appare alcun costituente per marcare il soggetto inespresso. A livello funzionale invece viene<br />
39
Co<strong>di</strong>ce linea e Tema<br />
inclusa la specificazione <strong>di</strong> un soggetto controllato, secondo quanto illustrato nella sezione 5.1.1.1.1<br />
(nel paragrafo relativo alla relazione soggetto).<br />
Strutture ellittiche <strong>di</strong> vario tipo sono integrate con l’informazione omessa a livello della<br />
realizzazione superficiale nell’annotazione funzionale secondo quanto illustrato nella sezione 5.2.4.<br />
4.4.3 Clitici<br />
I clitici meritano un <strong>di</strong>scorso a parte in quanto costituiscono un importante componente della<br />
struttura sintattica, sia a costituenti sia funzionale.<br />
I clitici sono trattati come sostituti lessicali <strong>di</strong> complementi o aggiunti. Vengono cioè trasformati<br />
in funzioni grammaticali corrispondenti, sulla base del caso lessicale e delle informazioni derivabili<br />
dal pre<strong>di</strong>cato reggente; per il loro trattamento al livello funzionale si rinvia alla sezione 5.2.5. La<br />
struttura a costituenti registra la loro presenza nella posizione superficiale in cui si trovano e ne<br />
copia il contenuto all’interno <strong>di</strong> un sintagma corrispondente.<br />
4.4.4 Il “SI” espletivo: inerente, passivante, me<strong>di</strong>o e impersonale<br />
Altri clitici espletivi sono quelli costituiti dalle varie interpretazioni del si: in particolare quelle<br />
che appaiono nelle frasi con verbi riflessivi inerenti come in Gianni si è arrabbiato, non richiedono<br />
un mapping nella struttura sintattica a costituenti. Il si passivante non contribuisce alcuna<br />
informazione aggiuntiva oltre all’informazione sulla <strong>di</strong>atesi passiva, come in il pane si mangia col<br />
prosciutto. Lo stesso vale per il si me<strong>di</strong>o che contribuisce informazione sia sulla <strong>di</strong>atesi, sia sul<br />
soggetto impersonale: da qui si vedono le montagne.<br />
Più in generale, il si impersonale svolge la funzione <strong>di</strong> in<strong>di</strong>viduare il soggetto impersonale, cioè<br />
un soggetto inespresso che assume il contenuto del quantificatore esistenziale, con tratti funzionali e<br />
semantici adeguati. Questa informazione viene travasata nel corrispondente costituente sintattico<br />
SN e utilizzata poi nel mapping in funzioni grammaticali.<br />
Altri si espletivi sono da considerarsi quelli in strutture ergative o incoative, come in il vaso<br />
improvvisamente si ruppe; e il si benefattivo o dativo etico <strong>di</strong> frasi del tipo: Gino si è bevuto una<br />
coca.<br />
4.4.5 Preposizioni e SP<br />
Tutte le preposizioni appariranno nella struttura a costituenti come testa del costituente SP<br />
corrispondente. Comunque, vi sono due tipi <strong>di</strong> costituenti SP: quelli normali e quelli retti dalla<br />
preposizione DI e sue forme derivate o dalla preposizione DA e sue forme derivate. Questa<br />
classificazione dei SP crea i presupposti per stabilire regole <strong>di</strong> corrispondenza tra la struttura a<br />
costituenti e la struttura funzionale.<br />
4.4.6 Modali e costruzioni perifrastiche <strong>di</strong> varia natura (aspettuali, causativi)<br />
Si tratta <strong>di</strong> costruzioni con verbi modali, aspettuali, utilizzati per perifrasi, causativi, in generale<br />
con i cosiddetti verbi a ristrutturazione. In questi casi, la testa lessicale non è costituita dal verbo<br />
che supporta la perifrasi ma dal verbo lessicale. Il loro trattamento al livello della struttura a<br />
40
Co<strong>di</strong>ce linea e Tema<br />
costituenti consiste in una “ristrutturazione” <strong>di</strong> IBAR, che vede il “sollevamento” del verbo<br />
lessicale e l’“abbassamento” del verbo modale/aspettuale/causativo al suo interno.<br />
Al fine <strong>di</strong> garantire l’omogeneità <strong>di</strong> trattamento dei dati linguistici tra i due livelli <strong>di</strong> annotazione<br />
sintattica nella <strong>Treebank</strong> <strong>di</strong> SI-TAL, si è deciso <strong>di</strong> limitare la tipologia dei verbi che provocano un<br />
sollevamento del verbo lessicale all’interno <strong>di</strong> IBAR a quelli nella lista che segue, a cui si devono<br />
aggiungere, ovviamente, i due ausiliari, essere e avere:<br />
• andare Vanno rifiutati tutti gli inviti<br />
• venire Vengano rifiutati tutti gli inviti<br />
• potere Può comprendere le loro richieste<br />
• volere Vuole comprendere le loro richieste<br />
• dovere Deve comprendere le loro richieste<br />
• stare Gino sta a guardare<br />
• stare per Gino sta per partire<br />
Al livello dell’annotazione, i seguenti casi:<br />
• verbi modali – dovere, volere, potere - e<br />
• verbi aspettuali – andare, venire, stare, stare per – <strong>di</strong> cui i primi due sono anche utilizzati<br />
per il passivo<br />
vanno inclusi nel costituente IBAR alla stessa stregua dei verbi ausiliari avere e essere e sono<br />
seguiti dal verbo lessicale nella sua forma al participio, all’infinito o al gerun<strong>di</strong>o.<br />
5 Annotazione funzionale<br />
Per il livello <strong>di</strong> annotazione funzionale, la <strong>Treebank</strong> <strong>di</strong> SI-TAL ha optato per uno schema <strong>di</strong><br />
annotazione funzionale tra parole piene (sostantivi, aggettivi e verbi): le motivazioni sottostanti a<br />
questa scelta sono dettagliate nel Rapporto della Linea 1.1 “Specifiche Tecniche”, sezione 4.1.4. In<br />
questa sede, riportiamo la versione finale delle specifiche <strong>di</strong> annotazione come risultanti al termine<br />
del processo <strong>di</strong> annotazione.<br />
Lo schema <strong>di</strong> annotazione funzionale adottato per la <strong>Treebank</strong> <strong>di</strong> SI-TAL ha preso le mosse dallo<br />
schema <strong>di</strong> annotazione elaborato nel progetto europeo SPARKLE (LE-2111), che a sua volta è stato<br />
rielaborato e rivisto ai fini della sua adozione nell’ambito <strong>di</strong> campagne <strong>di</strong> valutazione <strong>di</strong> analizzatori<br />
sintattici nell’ambito del progetto ELSE (LE4-8340). F.A.M.E (Functional Annotation Metascheme<br />
for Evaluation), lo schema elaborato in ELSE (Lenci et al. 1999a, 1999 b, 2000), è stato<br />
rivisto e specializzato rispetto alle peculiarità della lingua da annotare – l’italiano – ed alla sua<br />
adozione come schema <strong>di</strong> annotazione <strong>di</strong> una <strong>Treebank</strong>. Le specifiche ed i criteri <strong>di</strong> annotazione che<br />
seguono sono il risultato <strong>di</strong> questo processo <strong>di</strong> revisione e specializzazione.<br />
5.1 Specifiche <strong>di</strong> annotazione<br />
5.1.1 Tipologia delle relazioni funzionali<br />
Gli elementi <strong>di</strong> base dello schema <strong>di</strong> annotazione che proponiamo sono relazioni funzionali,<br />
dove con “relazione funzionale” si intende una relazione binaria sussistente tra due PARTECIPANTI:<br />
41
Co<strong>di</strong>ce linea e Tema<br />
all’interno dello schema proposto, i partecipanti ad una relazione funzionale sono costituiti soltanto<br />
da parole piene o lessicali. Sono quin<strong>di</strong> automaticamente escluse relazioni funzionali che<br />
riguardano parole grammaticali quali i determinativi, gli ausiliari, i complementatori, le<br />
preposizioni, etc. L’informazione riguardante questi elementi è co<strong>di</strong>ficata me<strong>di</strong>ante tratti associati ai<br />
partecipanti della relazione, come descritto <strong>di</strong> seguito.<br />
Ciascuna relazione funzionale è rappresentata come segue:<br />
tipo_<strong>di</strong>_relazione (partecipante_1.,<br />
partecipante_2.)<br />
“Tipo_<strong>di</strong>_relazione” specifica la relazione sussistente tra i due partecipanti. Ogni partecipante<br />
può anche ricevere una caratterizzazione rispetto ad un insieme <strong>di</strong> tratti che sono considerati<br />
rilevanti rispetto alla relazione che li lega.<br />
Le relazioni <strong>di</strong> <strong>di</strong>pendenza costituiscono un tipo particolare <strong>di</strong> relazione funzionale. Nel caso<br />
specifico, una relazione <strong>di</strong> <strong>di</strong>pendenza è costituita da una relazione binaria asimmetrica sussistente<br />
tra una TESTA ed un DIPENDENTE.<br />
relazione_<strong>di</strong>_<strong>di</strong>pendenza (testa.,<br />
<strong>di</strong>pendente.)<br />
La tipologia <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza <strong>di</strong> questo schema <strong>di</strong> annotazione è illustrata nella sezione<br />
5.1.1.1.<br />
Lo schema <strong>di</strong> annotazione della <strong>Treebank</strong> <strong>di</strong> SI_TAL include anche relazioni funzionali <strong>di</strong> altro<br />
tipo, ovvero relazioni simmetriche <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione per il trattamento della<br />
coor<strong>di</strong>nazione (sezione 5.1.1.2) e relazioni <strong>di</strong> coreferenza per il trattamento <strong>di</strong> frasi relative ed<br />
interrogative (sezione 5.1.1.3).<br />
5.1.1.1 Relazioni <strong>di</strong> <strong>di</strong>pendenza<br />
La tipologia delle relazioni <strong>di</strong> <strong>di</strong>pendenza previste dallo schema <strong>di</strong> annotazione della <strong>Treebank</strong> <strong>di</strong><br />
SI-TAL è organizzata gerarchicamente, in modo tale da permettere rappresentazioni sottospecificate<br />
che potrebbero essere utili per il trattamento <strong>di</strong> costruzioni realmente ambigue oppure controverse.<br />
In questo contesto, la relazione f j è una rappresentazione sottospecificata della relazione <strong>di</strong><br />
<strong>di</strong>pendenza f h se f j occupa un nodo progenitore del nodo associato a f h nella nostra gerarchia. Ad<br />
esempio la relazione “comp” sottospecifica “arg”, ma non “sogg”. Banalmente, il nodo “<strong>di</strong>p”, in<br />
quanto vertice della gerarchia, può essere usato per sottospecificare qualsiasi relazione.<br />
Nell’ambito <strong>di</strong> un’annotazione manuale il ricorso alla sottospecificazione è utile per ridurre il<br />
margine <strong>di</strong> arbitrarietà nelle scelte degli annotatori. Relazioni <strong>di</strong> <strong>di</strong>pendenza sottospecificate sono<br />
anche particolarmente cruciali: nel caso <strong>di</strong> un’annotazione automatica, quando l’analizzatore<br />
sintattico non abbia a <strong>di</strong>sposizione l’informazione necessaria per un’analisi completamente<br />
specificata; oppure, nell’ambito <strong>di</strong> campagne <strong>di</strong> valutazione, per evitare penalizzazioni arbitrarie <strong>di</strong><br />
analisi <strong>di</strong>vergenti ma in qualche misura compatibili.<br />
La gerarchia delle relazioni è strutturata come segue:<br />
42
Co<strong>di</strong>ce linea e Tema<br />
<strong>di</strong>p<br />
sogg<br />
comp<br />
mod<br />
arg<br />
pred<br />
non-pred<br />
ogg_d ogg_i obl<br />
Questa gerarchia separa il soggetto (sogg) rispetto alle altre relazioni grammaticali assegnandogli<br />
una posizione più alta all’interno dell’organizzazione delle funzioni sintattiche, come è usuale in<br />
molte teorie grammaticali (per esempio HPSG, GB). Inoltre, raggruppando i mo<strong>di</strong>ficatori (mod) e<br />
gli argomenti (arg) sotto lo stesso nodo dei complementi (comp), la gerarchia <strong>di</strong> relazioni proposta<br />
ammette la possibilità <strong>di</strong> lasciare sottospecificata la <strong>di</strong>stinzione tra mo<strong>di</strong>ficatore (o aggiunto) e<br />
argomento che non è sempre facile da applicare, specialmente rispetto all’uso reale della lingua. Il<br />
nodo “arg” è a sua volta sud<strong>di</strong>viso in “pred”, che raccoglie solo ed esclusivamente i complementi<br />
pre<strong>di</strong>cativi classici (pre<strong>di</strong>cativi del soggetto e dell’oggetto), e “non-pred”, che sussume i<br />
complementi non-pre<strong>di</strong>cativi, ovvero “ogg_d” (per gli oggetti <strong>di</strong>retti), “ogg_i” (per gli oggetti<br />
in<strong>di</strong>retti) e “obl” (per gli argomenti obliqui).<br />
Si noti che al livello <strong>di</strong> annotazione funzionale si rappresentano solo quei fenomeni che sono<br />
rilevanti per l’identificazione e/o specificazione <strong>di</strong> relazioni grammaticali (ad es. caso, <strong>di</strong>atesi, tratti<br />
<strong>di</strong> accordo etc.). Ne consegue che fenomeni come il tempo e l’aspetto verbale, l’ambito della<br />
negazione e l’ellissi interfrasale non sono trattati a questo livello in quanto considerati <strong>di</strong> pertinenza<br />
<strong>di</strong> un livello <strong>di</strong> rappresentazione logico-semantica che non trova una sua collocazione<br />
nell’architettura globale della <strong>Treebank</strong> <strong>di</strong> SI-TAL così come strutturata ad oggi. Analoga<br />
considerazione vale nel caso delle funzioni pragmatiche <strong>di</strong> topic e focus che sono al <strong>di</strong> fuori delle<br />
finalità del progetto in quanto sarebbero da trattare piuttosto ad un livello <strong>di</strong> rappresentazione<br />
pragmatica. Va comunque considerato che una <strong>Treebank</strong> come questa, dove l’annotazione è<br />
<strong>di</strong>stribuita su più livelli, è aperta ad integrazioni future. I fenomeni e le costruzioni che non trovano<br />
nella <strong>Treebank</strong> attuale una collocazione adeguata potranno dare luogo in futuro ad espansioni ed<br />
integrazioni della risorsa.<br />
Nei paragrafi che seguono, definiamo prima in maniera schematica ciascuna relazione <strong>di</strong><br />
<strong>di</strong>pendenza, per poi passare alla definizione dei tratti che possono essere associati alla testa e al<br />
<strong>di</strong>pendente.<br />
5.1.1.1.1 Inventario delle relazioni <strong>di</strong> <strong>di</strong>pendenza<br />
<strong>di</strong>p (testa, <strong>di</strong>pendente)<br />
<strong>di</strong>p(endenza) è la relazione più generica tra una testa e un <strong>di</strong>pendente, che rimane<br />
sottospecificata per quanto riguarda lo status <strong>di</strong> quest’ultimo. Come già osservato, questo<br />
livello <strong>di</strong> sottospecificazione può essere utile nei casi in cui l’informazione <strong>di</strong>sponibile non è<br />
sufficiente per la <strong>di</strong>sambiguazione. In particolare, <strong>di</strong>p può essere utile per trattare casi <strong>di</strong><br />
ambiguità reale tra soggetto e oggetto: ad esempio, sia chi che Maria possono essere<br />
43
Co<strong>di</strong>ce linea e Tema<br />
soggetto o oggetto nella completiva incassata della frase non so chi abbia incontrato Maria.<br />
In casi come questo, quando il contesto non sia <strong>di</strong> aiuto a capire chi incontra chi, si consiglia<br />
<strong>di</strong> ricorrere all’annotazione che segue:<br />
<strong>di</strong>p (incontrare, chi)<br />
<strong>di</strong>p (incontrare, Maria)<br />
sogg (testa, <strong>di</strong>pendente)<br />
In<strong>di</strong>ca la relazione tra un pre<strong>di</strong>cato e il suo sogg(etto):<br />
sogg (arrivare, Giovanni) Giovanni arrivò a Parigi<br />
sogg (assumere, Microsoft) La Microsoft ha assunto <strong>di</strong>eci programmatori<br />
sogg (assumere, Paolo) Paolo è stato assunto dalla Microsoft<br />
sogg si riferisce al soggetto superficiale della frase: come illustrano gli esempi sopra, viene<br />
assegnato in<strong>di</strong>pendentemente dalla <strong>di</strong>atesi attiva o passiva della testa verbale (a sua volta<br />
co<strong>di</strong>ficata come tratto associato alla testa, cfr sezione 5.1.1.1.2.2). Il soggetto logico non è<br />
marcato esplicitamente a livello <strong>di</strong> relazione, bensì al livello <strong>di</strong> tratti associati al <strong>di</strong>pendente<br />
(cfr sezione 5.1.1.1.2.1).<br />
La stessa relazione sogg è anche usata per marcare il verbo in frasi completive con funzione<br />
<strong>di</strong> soggetto, come illustrato dagli esempi che seguono.<br />
sogg (significare, partire) che Maria sia partita significa che si è arresa<br />
sogg (richiedere, vincere) vincere la gara richiede un grosso impegno<br />
sogg (essere, partire) è necessario partire presto<br />
Con lingue pro-drop come l’italiano, casi <strong>di</strong> soggetto “nullo” o ellittico, che si verificano<br />
quando il soggetto non è superficialmente realizzato, vengono trattati me<strong>di</strong>ante<br />
un’annotazione parziale, esemplificata <strong>di</strong> seguito:<br />
sogg (arrivare, .) arrivai in ritardo<br />
dove i) l’elemento <strong>di</strong>pendente non è specificato a livello lessicale e ii) le caratteristiche<br />
morfo-sintattiche del soggetto, corrispondenti alla persona, al numero e al genere (qualora<br />
rilevante), sono co<strong>di</strong>ficate in termini <strong>di</strong> tratti associati al <strong>di</strong>pendente (si veda la sezione<br />
5.1.1.1.2.1 per maggiori dettagli). Questa soluzione è stata messa a punto per evitare<br />
rappresentazioni troppo <strong>di</strong>pendenti da una teoria specifica ed al contempo fornire una<br />
rappresentazione il più informativa possibile; si è preferita, ad esempio, ad una co<strong>di</strong>fica del<br />
tipo “sogg (arrivare, pro)” che tratta il pro-drop nei termini <strong>di</strong> una relazione tra una testa<br />
verbale ed un elemento vuoto (pro) che a sua volta necessiterebbe <strong>di</strong> una caratterizzazione<br />
da un punto <strong>di</strong> vista morfo-sintattico. In questo modo, viene anche garantita la comparabilità<br />
e la compatibilità con approcci <strong>di</strong>versi.<br />
La relazione sogg è usata inoltre per contrassegnare il soggetto “implicito” <strong>di</strong> completive<br />
infinitivali con funzione <strong>di</strong> complemento in costruzioni a controllo e a sollevamento<br />
(<strong>di</strong>stinzione, questa, che non appare rilevante dal punto <strong>di</strong> vista dell’annotazione funzionale)<br />
così come <strong>di</strong> infinitive, participiali e gerun<strong>di</strong>ve con funzione <strong>di</strong> mo<strong>di</strong>ficatore, come illustrato<br />
dagli esempi che seguono:<br />
sogg (partire, Giovanni) Giovanni promise a Maria <strong>di</strong> partire<br />
sogg (partire, Maria) Giovanni or<strong>di</strong>nò a Maria <strong>di</strong> partire<br />
sogg (partire, Maria) Maria fu costretta a partire<br />
sogg (arrivare, Giovanni) Giovanni sembra arrivare domani<br />
sogg (arrivare, Giovanni) Essendo arrivato presto, Giovanni vide tutta la partita<br />
44
Co<strong>di</strong>ce linea e Tema<br />
sogg (finire, Giovanni) Finito il lavoro, Giovanni partì<br />
sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro<br />
La relazione sogg è usata infine per contrassegnare il soggetto <strong>di</strong> complementi pre<strong>di</strong>cativi<br />
(del soggetto o dell’oggetto), come illustrato <strong>di</strong> seguito:<br />
sogg (intelligente, Giovanni) Giovanni è intelligente<br />
sogg (intelligente, Maria) Giovanni considera Maria intelligente<br />
sogg (genio, Maria) Maria è considerata un genio<br />
Con questi due ultimi insiemi <strong>di</strong> casi - il soggetto implicito <strong>di</strong> frasi completive <strong>di</strong> modo non<br />
finito ed il soggetto <strong>di</strong> complementi pre<strong>di</strong>cativi - lo schema proposto va al <strong>di</strong> là del dominio<br />
proprio della sintassi <strong>di</strong> superficie e include informazione relativa alla struttura pre<strong>di</strong>catoargomento:<br />
in particolare, fornisce in<strong>di</strong>cazione esplicita i) riguardo al soggetto del verbo<br />
nella frase incassata quando controllato da un argomento della testa verbale della frase<br />
matrice e ii) riguardo al soggetto <strong>di</strong> complementi pre<strong>di</strong>cativi. Abbiamo deciso comunque <strong>di</strong><br />
includerla per garantire la compatibilità della <strong>Treebank</strong> con schemi <strong>di</strong> annotazione sintattica<br />
che marcano soggetti “impliciti” <strong>di</strong> frasi incassate (in vista, ad esempio, <strong>di</strong> un uso della<br />
<strong>Treebank</strong> a fini <strong>di</strong> valutazione) oppure che trattano il complemento pre<strong>di</strong>cativo in termini <strong>di</strong><br />
frase ridotta selezionata dal verbo reggente.<br />
comp (testa, <strong>di</strong>pendente)<br />
comp marca in modo generico la relazione tra una testa ed un complemento, sia esso<br />
mo<strong>di</strong>ficatore o argomento. Questa relazione funzionale sottospecificata è particolarmente<br />
utile in quei casi in cui è <strong>di</strong>fficile stabilire la natura argomentale o <strong>di</strong> mo<strong>di</strong>ficatore del<br />
complemento. Per esempio, consideriamo la frase Giovanni spinse la macchina verso la<br />
stazione dove, a seconda dei criteri <strong>di</strong> selezione adottati, verso la stazione può essere<br />
considerato come un mo<strong>di</strong>ficatore o come un argomento. La caratterizzazione come comp<br />
riportata sotto rimane compatibile con entrambe le analisi, non costringendo l’annotatore a<br />
decisioni arbitrarie e/o premature:<br />
comp (spingere, stazione)<br />
Questa relazione risulta particolarmente utile nei seguenti casi:<br />
• co<strong>di</strong>fica della relazione tra un nome ed un suo complemento preposizionale. Si<br />
confrontino i seguenti casi:<br />
comp (professore, fisica) il professore <strong>di</strong> fisica<br />
comp (padre, Maria) il padre <strong>di</strong> Maria<br />
l’annotazione nei termini <strong>di</strong> comp mantiene sottospecificata la natura del<br />
complemento, che non è sempre facile da stabilire in modo univoco.<br />
• co<strong>di</strong>fica della relazione tra una testa ed un argomento semantico che sia<br />
sintatticamente realizzato come un mo<strong>di</strong>ficatore. Questo è il caso, ad esempio,<br />
dell’agente espresso nella costruzione passiva come un complemento preposizionale<br />
introdotto dalla preposizione “da”: la sua natura <strong>di</strong> “aggiunto tematicamente legato”<br />
è messa in evidenza dalla sua co<strong>di</strong>fica in termini <strong>di</strong> comp, come esemplificato nel<br />
frammento <strong>di</strong> annotazione che segue:<br />
comp (uccidere, Bruto) fu ucciso da Bruto<br />
Nell’annotazione della <strong>Treebank</strong> <strong>di</strong> SI-TAL il ricorso alla relazione comp è stato limitato ai<br />
casi in cui non è stato possibile decidere se la relazione <strong>di</strong> <strong>di</strong>pendenza in questione sia <strong>di</strong><br />
45
Co<strong>di</strong>ce linea e Tema<br />
mo<strong>di</strong>ficazione oppure <strong>di</strong> argomento. A questo proposito, l’annotatore ha avuto a<br />
<strong>di</strong>sposizione una batteria <strong>di</strong> criteri per <strong>di</strong>scriminare i due casi (illustrati nella sezione 5.2.1): i<br />
casi che rimarranno incerti verranno annotati in modo sottospecificato, ovvero in termini <strong>di</strong><br />
comp.<br />
mod (testa, <strong>di</strong>pendente)<br />
La relazione mod sussiste tra una testa e il suo mo<strong>di</strong>ficatore, come illustrato dai seguenti<br />
casi:<br />
• mo<strong>di</strong>ficazione aggettivale<br />
mod (ban<strong>di</strong>era, rosso) una ban<strong>di</strong>era rossa<br />
• mo<strong>di</strong>ficazione avverbiale<br />
mod (camminare, lentamente) camminare lentamente<br />
• mo<strong>di</strong>ficazione con sintagma preposizionale<br />
mod (camminare, calma) camminare con calma<br />
• apposizione<br />
mod (Picasso, pittore) Picasso il pittore<br />
• mo<strong>di</strong>ficazione frasale<br />
mod (camminare, parlare) camminava parlando<br />
mod (mangiare, chiedere) ha mangiato i dolci dopo averlo chiesto<br />
mod (mangiare, chiedere) ha mangiato i dolci senza chiedere<br />
Confrontando gli esempi sopra, si può notare che la relazione mod copre mo<strong>di</strong>ficatori frasali<br />
e non.<br />
arg (testa, <strong>di</strong>pendente)<br />
arg in<strong>di</strong>ca la relazione più generica intercorrente tra una testa ed un suo argomento. Oltre a<br />
casi in cui la sottospecificazione relativa alla funzione dell’argomento appaia opportuna,<br />
questa relazione viene normalmente usata per etichettare la relazione intercorrente tra una<br />
testa verbale e una completiva non soggetto (sia essa infinitiva o meno), come illustrato dai<br />
seguenti casi:<br />
arg (promettere, accettare) Giovanni ha promesso <strong>di</strong> accettare il lavoro<br />
arg (or<strong>di</strong>nare, partire) Giovanni ha or<strong>di</strong>nato a Maria <strong>di</strong> partire<br />
arg (<strong>di</strong>re, accettare) Giovanni ha detto che avrebbe accettato il lavoro<br />
arg (informare, andare) Giovanni ha informato Maria che sarebbe andato<br />
arg (promettere, andare) Giovanni ha promesso a Maria che sarebbe andato<br />
Questo tipo <strong>di</strong> co<strong>di</strong>fica della funzione delle completive complemento parte dalla<br />
constatazione dell’ampia variabilità della funzione loro assegnata nell’ambito <strong>di</strong> <strong>di</strong>verse<br />
teorie grammaticali e <strong>di</strong> <strong>di</strong>versi analizzatori sintattici (caso che invece non si verifica nel<br />
caso <strong>di</strong> soggetti <strong>di</strong> tipo frasale che sono <strong>di</strong> più facile identificazione). Ad esempio, la<br />
completiva infinitivale della frase Maria ha deciso <strong>di</strong> partire è classificata come oggetto<br />
<strong>di</strong>retto nello schema <strong>di</strong> annotazione della Constraint Grammar (Karlsson et al. 1995) mentre<br />
è caratterizzata come complemento pre<strong>di</strong>cativo non saturato (xcomp) nella LFG così come<br />
nello schema <strong>di</strong> annotazione avanzato nel progetto europeo SPARKLE. L’analisi qui<br />
46
Co<strong>di</strong>ce linea e Tema<br />
proposta, integrata con informazione co<strong>di</strong>ficata in termini <strong>di</strong> tratti <strong>di</strong>stintivi (si veda il tratto<br />
status <strong>di</strong>scusso nella sezione 5.1.1.1.2.1), rimane così comparabile e compatibile con un<br />
ampio spettro <strong>di</strong> analisi senza per<strong>di</strong>ta <strong>di</strong> informazione.<br />
pred (testa, <strong>di</strong>pendente)<br />
pred contrassegna la relazione che sussiste tra una testa verbale ed un complemento<br />
pre<strong>di</strong>cativo, sia esso un complemento pre<strong>di</strong>cativo del soggetto o un complemento<br />
pre<strong>di</strong>cativo dell’oggetto.<br />
pred (essere, intelligente) Giovanni è intelligente<br />
pred (considerare, genio) Giovanni considera Maria un genio<br />
La <strong>di</strong>stinzione tra pre<strong>di</strong>cativo del soggetto e pre<strong>di</strong>cativo dell’oggetto è ricavabile dalla<br />
rappresentazione complessiva della frase (si veda la sezione 5.2.2.10). Al livello della<br />
singola relazione ci limitiamo a marcare la natura pre<strong>di</strong>cativa del complemento rispetto alla<br />
testa verbale.<br />
non-pred (testa, <strong>di</strong>pendente)<br />
Nella gerarchia delle relazioni funzionali riportata sopra, non-pred è il nodo che raggruppa<br />
complementi non pre<strong>di</strong>cativi. Non si prevedono, ad oggi, casi in cui questa relazione sia<br />
usata per trattare casi ambigui che richiedano una sottospecificazione a questo livello.<br />
ogg_d (testa, <strong>di</strong>pendente)<br />
ogg_d è la relazione che sussiste tra un pre<strong>di</strong>cato e il suo oggetto <strong>di</strong>retto (sempre nonfrasale),<br />
cioè:<br />
ogg_d (leggere, libro) Giovanni ha letto molti libri<br />
ogg_i (testa, <strong>di</strong>pendente)<br />
ogg_i è la relazione tra un pre<strong>di</strong>cato e un oggetto in<strong>di</strong>retto, cioè il complemento che esprime<br />
l’entità che accoglie l’azione espressa dal verbo, come esemplificato dai casi che seguono:<br />
ogg_i (parlare, Maria) Giovanni parla a Maria<br />
ogg_i (dare, Maria) Giovanni <strong>di</strong>ede a Maria il contratto<br />
ogg_i (dare, Maria) Giovanni <strong>di</strong>ede il contratto a Maria<br />
ogg_i (parlare, le) Giovanni le parla<br />
Un test cruciale per l’identificazione <strong>di</strong> questa relazione è costituito dalla<br />
pronominalizzazione dell’ogg_i con un dativo (si veda sotto).<br />
obl (testa, <strong>di</strong>pendente)<br />
obl è la relazione tra un pre<strong>di</strong>cato e un complemento non frasale, non <strong>di</strong>retto e non in<strong>di</strong>retto,<br />
realizzato tipicamente in forma <strong>di</strong> sintagma preposizionale:<br />
obl (vivere, Roma) Giovanni vive a Roma<br />
obl (arrivare, aeroporto) Giovanni arrivò all’aeroporto<br />
obl (informare, arrivo) Giovanni informò Maria del suo arrivo<br />
obl (comportarsi, freddezza) Giovanni si comportò con freddezza<br />
47
Co<strong>di</strong>ce linea e Tema<br />
Come accennato sopra, la <strong>di</strong>stinzione tra oggetto in<strong>di</strong>retto e complemento obliquo è<br />
supportata dal <strong>di</strong>verso tipo <strong>di</strong> pronominalizzazione dei due complementi. Si confrontino le<br />
seguenti coppie <strong>di</strong> frasi:<br />
1. Giovanni ha dato un libro a Maria<br />
Giovanni le ha dato un libro<br />
2. Giovanni aspirava a Maria<br />
*Giovanni le aspirava<br />
dove a Maria è un oggetto in<strong>di</strong>retto in 1. e in quanto tale è pronominalizzato con il dativo le,<br />
mentre è un complemento obliquo in 2., dove la pronominalizzazione con il pronome dativo<br />
risulta in una frase sintatticamente mal formata.<br />
La relazione obl è anche usata per marcare la <strong>di</strong>pendenza tra un verbo e complementi<br />
avverbiali la cui selezione è governata a livello lessicale; ad esempio:<br />
obl (comportarsi, bene) Giovanni si comportò bene<br />
5.1.1.1.2 Tratti associati agli elementi della relazione <strong>di</strong> <strong>di</strong>pendenza<br />
Nello schema <strong>di</strong> annotazione adottato, un ruolo centrale è ricoperto dai tratti associati ad<br />
entrambi gli elementi della relazione <strong>di</strong> <strong>di</strong>pendenza.<br />
In ciò che segue i due insiemi <strong>di</strong> tratti sono <strong>di</strong>scussi separatamente, prima i tratti del DIPENDENTE,<br />
poi quelli della TESTA, infine quelli comuni a entrambi. Si noti che i tratti sono aggiunti alla<br />
specificazione del DIPENDENTE e della TESTA, tra parentesi uncinate e preceduti da un punto. Al fine<br />
<strong>di</strong> rendere l’annotazione più leggibile, negli esempi forniti <strong>di</strong> seguito i tratti specificati sono solo<br />
quelli in corso <strong>di</strong> definizione. Ovviamente un’annotazione completa include, per ogni elemento<br />
della relazione, l’insieme completo dei tratti rilevanti nel contesto specifico.<br />
5.1.1.1.2.1 Tratti <strong>di</strong>stintivi del DIPENDENTE<br />
• introdep<br />
Il tratto introdep è usato in una varietà <strong>di</strong> costruzioni <strong>di</strong>verse per specificare l’elemento<br />
grammaticale, generalmente una preposizione o una congiunzione, che “introduce” il<br />
<strong>di</strong>pendente. La natura <strong>di</strong> questo “introduttore” varia a seconda della relazione funzionale e del<br />
tipo <strong>di</strong> <strong>di</strong>pendente: ad esempio può trattarsi <strong>di</strong> preposizione nel caso <strong>di</strong> complementi nominali,<br />
oppure congiunzione nel caso <strong>di</strong> completive <strong>di</strong> modo finito. Alcuni esempi seguono:<br />
• caso<br />
ogg_i (dare, Maria.) dare a Maria<br />
comp (uccidere, Bruto.) fu ucciso da Bruto<br />
arg (<strong>di</strong>re, accettare.) Giovanni ha detto che accetterà il lavoro<br />
arg (decidere, lasciare.) Giovanni ha deciso <strong>di</strong> lasciare il lavoro<br />
mod (camminare, parlare.) camminava mentre parlava<br />
Il tratto caso, la cui realizzazione morfosintattica si limita in italiano ad alcuni pronomi<br />
personali soltanto, risulta utile a supporto dell’identificazione della relazione <strong>di</strong> <strong>di</strong>pendenza.<br />
Suoi possibili valori sono “dativo/accusativo”:<br />
• status<br />
ogg_i (dare,gli.) dargli<br />
48
Co<strong>di</strong>ce linea e Tema<br />
Il tratto status è associato a <strong>di</strong>pendenti verbali ed è usato per <strong>di</strong>scriminare tra<br />
soggetti/complementi frasali con la valenza soggetto saturata e soggetti/complementi frasali con<br />
soggetto controllato da <strong>di</strong>pendenze esterne. I possibili valori associati a questo tratto sono<br />
“aperto/chiuso”:<br />
• aperto – marca un soggetto o complemento (sia esso argomento o mo<strong>di</strong>ficatore) <strong>di</strong> tipo<br />
frasale il cui soggetto è controllato da una testa con la quale non esiste una esplicita e <strong>di</strong>retta<br />
relazione <strong>di</strong> <strong>di</strong>pendenza (questo implica, ad esempio, che la relazione non è marcata<br />
dall’accordo grammaticale):<br />
arg (decidere, partire.) Giovanni decise <strong>di</strong> partire<br />
mod (aspettare, arrivare.) essendo arrivati presto, abbiamo<br />
aspettato l’incontro<br />
sogg (richiedere, vincere.) vincere l’America’s Cup richiede<br />
montagne <strong>di</strong> sol<strong>di</strong><br />
• chiuso – marca un soggetto o complemento (sia esso argomento o mo<strong>di</strong>ficatore) frasale il<br />
cui soggetto non è controllato da <strong>di</strong>pendenze esterne:<br />
• modo<br />
arg (<strong>di</strong>re, partire.) Giovanni <strong>di</strong>sse che Maria<br />
sarebbe partita domani<br />
mod (mangiare, affamato.) ha mangiato il<br />
dolce perché era affamato<br />
sogg (essere, ingoiare.) che i governi europei<br />
debbano silenziosamente ingoiarle non è giusto<br />
Il tratto modo del <strong>di</strong>pendente è usato, nel caso <strong>di</strong> soggetti/complementi frasali, per specificare il<br />
modo della testa verbale. Suoi possibili valori sono “gerun<strong>di</strong>o / part_pass / inf / partic.pres /<br />
cong / ind / cond”:<br />
mod (camminare, parlare.) Camminava parlando<br />
mod (partire, finire.) Finito il lavoro, Maria partì<br />
arg (decidere, partire.< modo=inf>) Giovanni decise <strong>di</strong> partire<br />
mod (aspettare, arrivare.< modo=gerun<strong>di</strong>o >) essendo arrivati presto, abbiamo<br />
aspettato l’incontro<br />
sogg (richiedere, vincere.< modo=inf>) vincere l’America’s Cup richiede montagne<br />
<strong>di</strong> sol<strong>di</strong><br />
Per quanto questo tipo <strong>di</strong> informazione è già incluso nell’input che è annotato morfosintatticamente,<br />
viene riportato in questa sede in quanto rilevante per la caratterizzazione della<br />
relazione <strong>di</strong> <strong>di</strong>pendenza.<br />
• ruolo<br />
Il tratto ruolo è usato per fornire una caratterizzazione semantica alla relazione <strong>di</strong> <strong>di</strong>pendenza,<br />
ovvero per rendere esplicito, quando necessario, il ruolo semantico del <strong>di</strong>pendente rispetto alla<br />
testa. Si ricorre a questo tratto quando l’informazione sintattico-funzionale non sia sufficiente a<br />
caratterizzare in modo univoco la relazione. Si prenda ad esempio il caso del complemento <strong>di</strong><br />
agente in costruzioni passive: a livello <strong>di</strong> relazione la sua co<strong>di</strong>fica è in termini <strong>di</strong> comp, ma da<br />
questa co<strong>di</strong>fica (combinata con la <strong>di</strong>atesi della testa verbale) non è possibile risalire in modo<br />
certo all’interpretazione dell'agente, informazione che per certe applicazioni (ad esempio la<br />
traduzione automatica) è cruciale. Analoghe considerazioni valgono nel caso <strong>di</strong> complementi<br />
temporali, locativi e comparativi. Si vedano gli esempi che seguono:<br />
49
Co<strong>di</strong>ce linea e Tema<br />
comp (uccidere, Bruto.) fu ucciso da Bruto<br />
arg (partire, Roma.) è partito da Roma<br />
mod (partire, ora.) è partito da un’ora<br />
comp (migliore, insegnante.) è migliore dell’insegnante<br />
Si ricorre al tratto ruolo anche per marcare costruzioni con superlativo relativo che prevedono<br />
una restrizione dell’ambito <strong>di</strong> applicazione dell’aggettivo. Ad esempio, in il ragazzo più<br />
prestigioso d’America la relazione tra l’aggettivo ed il <strong>di</strong>pendente che ne restringe l’ambito è<br />
co<strong>di</strong>ficata in termini <strong>di</strong> comp; il <strong>di</strong>pendente è inoltre descritto come “ambito” <strong>di</strong> applicazione<br />
della testa aggettivale (ruolo=ambito) come esemplificato <strong>di</strong> seguito:<br />
mod (ragazzo, prestigioso)<br />
mod (prestigioso, più)<br />
comp (prestigioso, America< introdep=“<strong>di</strong>”; ruolo=“ambito”>)<br />
Il tratto ruolo è infine usato per marcare nell'annotazione il grado superlativo assoluto <strong>di</strong> un<br />
aggettivo: in questo caso il valore assegnato a ruolo è “superlativo” come esemplificato <strong>di</strong><br />
seguito:<br />
Il più vistoso è quello situato in basso<br />
mod (vistoso, più)<br />
pred (è, vistoso)<br />
Il tratto ruolo ha dunque come possibili valori: “agente / temporale / locativo / compar /<br />
superlativo / ambito”.<br />
5.1.1.1.2.2 Tratti <strong>di</strong>stintivi della TESTA<br />
• <strong>di</strong>at(esi)<br />
Il tratto <strong>di</strong>at specifica la <strong>di</strong>atesi <strong>di</strong> una testa verbale. Suoi possibili valori sono<br />
“attivo/passivo/me<strong>di</strong>o”.<br />
sogg (assumere., Microsoft) La Microsoft ha assunto Paolo<br />
sogg (assumere., Paolo) Paolo fu assunto dalla Microsoft<br />
sogg (vendere., casa) Questa casa si vende bene<br />
• syn_form<br />
Il tratto syn_form specifica la forma personale/impersonale <strong>di</strong> una testa verbale. Questo tratto<br />
ha come possibili valori “pers / impers/ si_impers”.<br />
sogg (assumere.< syn_form=pers >, Microsoft) La Microsoft ha assunto Paolo<br />
arg (bisogna., <strong>di</strong>scutere) Bisogna <strong>di</strong>scutere <strong>di</strong> queste cose<br />
arg(<strong>di</strong>re., tornare) Si <strong>di</strong>ce che non tornerà<br />
Con il valore “si_impers” vengono marcati quei casi in cui il “si” marca l'uso impersonale <strong>di</strong> un<br />
verbo che solitamente ammette un soggetto (es. si va, si pensa <strong>di</strong> arrivare domani). Secondo<br />
alcune teorie, il “si” impersonale può essere considerato il soggetto vero e proprio della<br />
proposizione in cui compare. La nostra strategia <strong>di</strong> annotazione delle costruzioni impersonali<br />
consiste a) nello specificare l'uso impersonale del verbo (marcato dal “si”) al livello della testa<br />
verbale come esemplificato sopra e b) nell'omettere la specificazione della relazione <strong>di</strong> soggetto<br />
(che rimane indefinito).<br />
• reflex<br />
50
Co<strong>di</strong>ce linea e Tema<br />
Il tratto reflex viene usato per la caratterizzazione <strong>di</strong> teste verbali con pronomi riflessivi. Viene<br />
<strong>di</strong>stinta la seguente tipologia <strong>di</strong> casi:<br />
• pers(ona)<br />
• verbi riflessivi: al tratto reflex viene assegnato il valore “rifl”, come esemplificato <strong>di</strong><br />
seguito:<br />
ogg_d (guardare., mi) Mi guardo allo specchio<br />
Si noti che in questo caso la co<strong>di</strong>fica dell'informazione avviene anche al livello della<br />
relazione <strong>di</strong> <strong>di</strong>pendenza: infatti il pronome riflessivo rappresenta un argomento del verbo<br />
con ruolo proprio e viene dunque posto in relazione <strong>di</strong> ogg_d con il verbo.<br />
• verbi intransitivi pronominali: il pronome riflessivo non rappresenta un argomento del<br />
verbo ma appare obbligatoriamente insieme a certi verbi nei seguenti casi:<br />
o variante intransitiva <strong>di</strong> una parte dei verbi ergativi (es. capovolgersi, rompersi): in<br />
questo caso il pronome riflessivo è un semplice segnale dell'intransitività del<br />
verbo rispetto alla variante transitiva:<br />
sogg (capovolgersi., barca) La barca si è capovolta<br />
o verbi inerentemente riflessivi, in cui il pronome riflessivo non convoglia nessun<br />
significato particolare (es. pentirsi, avvalersi)<br />
sogg (pentirsi., Giovanni) Giovanni si è pentito<br />
In questi casi il valore assegnato a reflex è “ipron”.<br />
• riflessivi apparenti: in questo caso il valore assegnato a reflex è “rifl_app”:<br />
ogg_d (lavare., mano) Giovanni si lava le mani<br />
• “si” passivante: si tratta <strong>di</strong> un uso non lessicalizzato in cui il “si” può essere visto come<br />
una marca della passività del verbo nella costruzione specifica:<br />
sogg (mangiare.< reflex=“passivo”>, mela) Le mele si mangiano con le mani<br />
In questo caso il valore assegnato a reflex è “passivo”.<br />
pers specifica la persona <strong>di</strong> una testa verbale. Suoi possibili valori sono “1/2/3”:<br />
• num(ero)<br />
sogg (mangiare., Mario) Mario mangia una pizza<br />
num specifica il numero <strong>di</strong> una testa verbale. Suoi possibili valori sono “sing/plur”:<br />
• gen(ere)<br />
sogg (mangiare., Mario) Mario mangia una pizza<br />
gen specifica, ove rilevante (ovvero con verbi con <strong>di</strong>atesi passiva o me<strong>di</strong>a, oppure con tempi<br />
composti), il genere <strong>di</strong> una testa verbale. Suoi possibili valori sono “mas/fem”:<br />
sogg (arrivare., Maria) Maria è arrivata<br />
51
Co<strong>di</strong>ce linea e Tema<br />
Per quanto l’informazione relativa alla persona, genere e numero sia già co<strong>di</strong>ficata nel file <strong>di</strong><br />
input annotato morfo-sintatticamente, questi tratti sono <strong>di</strong>scussi in questa sede in quanto rilevanti<br />
per una completa caratterizzazione della relazione <strong>di</strong> <strong>di</strong>pendenza.<br />
5.1.1.1.2.3 Tratti <strong>di</strong>stintivi della TESTA e del DIPENDENTE<br />
Per quanto riguarda i nomi, sia nel ruolo <strong>di</strong> testa sia in quello <strong>di</strong> <strong>di</strong>pendente, si è decisa la<br />
co<strong>di</strong>fica dei seguenti tratti:<br />
• quant(ificazione): il cui valore è costituito da un quantificatore.<br />
ogg_d (vedere, gatto.) ho visto molti gatti<br />
• card(inalità): il cui valore è costituito da un numero car<strong>di</strong>nale.<br />
ogg_d (vedere, gatto.) ho visto due gatti<br />
• def(initezza): i cui possibili valori sono “+/ - /0”.<br />
ogg_d (vedere, gatto.) ho visto il gatto<br />
ogg_d (vedere, gatto.) ho visto un gatto<br />
ogg_d (vedere, gatto.) ho visto gatti<br />
• aux e perifra<br />
Per quanto riguarda i verbi, sia nel ruolo <strong>di</strong> testa sia in quello <strong>di</strong> <strong>di</strong>pendente, si è decisa la<br />
co<strong>di</strong>fica dei tratti aux e perifra per la descrizione <strong>di</strong> alcune costruzioni verbali perifrastiche.<br />
Sono co<strong>di</strong>ficate in modo sintetico (ovvero in termini <strong>di</strong> tratti associati ad un’unica testa<br />
lessicale) le costruzioni perifrastiche con i verbi essere e avere, così come con andare,<br />
venire, potere, volere, dovere e stare (per la tipologia <strong>di</strong> costruzioni coperte si rinvia alla<br />
sezione 4.4.6). Aux viene usato per la descrizione <strong>di</strong> tempi composti con i verbi ausiliari<br />
essere e avere; a perifra si ricorre negli altri casi, ovvero essere nella costruzione passiva, e<br />
tutti gli altri verbi modali e aspettuali. Ad esempio:<br />
ogg_d (vedere., gatto) ho visto i gatti<br />
sogg (vedere., gatto) sono stati visti molti gatti<br />
mod (arrivare., domani) devono arrivare domani<br />
Nei casi <strong>di</strong> ellissi dell'ausiliare o del verbo servile, il valore assegnato all'attributo aux o<br />
perifra è seguito da un * (si veda la sezione 5.2.4.3 per una esemplificazione esaustiva <strong>di</strong><br />
questo caso).<br />
5.1.1.2 Relazioni simmetriche <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione<br />
Oltre alle relazioni <strong>di</strong> <strong>di</strong>pendenza descritte sopra, lo schema proposto include anche relazioni<br />
simmetriche per il trattamento della coor<strong>di</strong>nazione.<br />
52
Co<strong>di</strong>ce linea e Tema<br />
La coor<strong>di</strong>nazione è trattata me<strong>di</strong>ante relazioni simmetriche <strong>di</strong> congiunzione (cong) e <strong>di</strong><br />
<strong>di</strong>sgiunzione (<strong>di</strong>sg). Si consideri, ad esempio, la frase Giovanni e Maria sono arrivati, contenente<br />
un soggetto congiunto. Alla sua rappresentazione in termini <strong>di</strong> <strong>di</strong>pendenze riportata sotto:<br />
sogg (arrivare, Giovanni)<br />
sogg (arrivare, Maria)<br />
si aggiunge la specificazione della relazione <strong>di</strong> congiunzione che segue:<br />
cong (Giovanni, Maria)<br />
La rappresentazione della frase Giovanni o Maria sono arrivati non <strong>di</strong>fferirà a livello <strong>di</strong> relazioni<br />
<strong>di</strong> <strong>di</strong>pendenza; l’unica <strong>di</strong>fferenza riguarda la relazione tra Giovanni e Maria che in questo caso è <strong>di</strong><br />
<strong>di</strong>sgiunzione:<br />
<strong>di</strong>sg (Giovanni, Maria)<br />
5.1.1.2.1 Tratti <strong>di</strong>stintivi del partecipante in relazioni simmetriche<br />
L’unico tratto <strong>di</strong>stintivo specifico dei partecipanti a relazioni simmetriche <strong>di</strong> congiunzione o<br />
<strong>di</strong>sgiunzione è costituito da introsim: viene impiegato per co<strong>di</strong>ficare gli introduttori, tipicamente<br />
congiunzioni, dei partecipanti nella relazione specifica. Ad esempio:<br />
Sia Giovanni che Maria sono arrivati<br />
sogg (arrivare, Giovanni)<br />
sogg (arrivare, Maria)<br />
cong (Giovanni., Maria.)<br />
Manca non solo pane ma anche latte<br />
sogg (mancare, pane)<br />
sogg (mancare, latte)<br />
cong (pane, latte.)<br />
5.1.1.3 Relazioni <strong>di</strong> coreferenza<br />
In questa sezione, trattiamo l’annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza, che sarà circoscritta a<br />
relazioni <strong>di</strong> coreferenza <strong>di</strong> chiara natura sintattica ed interne alla singola frase. Questa restrizione<br />
consegue naturalmente dalla natura del testo da annotare (lingua scritta) e dal livello <strong>di</strong> annotazione<br />
in questione (sintattico-funzionale): nella <strong>Treebank</strong> <strong>di</strong> SI-TAL, l’annotazione <strong>di</strong> relazioni <strong>di</strong><br />
coreferenza è circoscritta a legami interni alla singola frase; viene invece fatta astrazione da<br />
relazioni anaforiche in quanto <strong>di</strong> <strong>di</strong>retta pertinenza della semantica. Anche se relazioni <strong>di</strong><br />
coreferenza vanno al <strong>di</strong> là della sintassi <strong>di</strong> superficie, riteniamo che la loro annotazione nell’ambito<br />
della <strong>Treebank</strong> <strong>di</strong> SI-TAL sia importante in quanto la presenza <strong>di</strong> questo tipo <strong>di</strong> informazione rende<br />
la risorsa usabile in modo più efficace in applicazioni quali, ad esempio, recupero ed acquisizione <strong>di</strong><br />
informazioni.<br />
In particolare, l’annotazione riguarda il legame tra:<br />
• il pronome relativo ed il suo antecedente;<br />
• tra il clitico e l’elemento <strong>di</strong>slocato in costruzioni a <strong>di</strong>slocazione con ripresa pronominale.<br />
Consideriamo ad esempio una frase come il ragazzo che Maria ha incontrato ieri è Giovanni. La<br />
frase relativa che Maria ha incontrato ieri è annotata come segue:<br />
53
Co<strong>di</strong>ce linea e Tema<br />
sogg (incontrare, Maria)<br />
ogg_d (incontrare, che)<br />
mod (incontrare, ieri)<br />
Le rimanenti relazioni <strong>di</strong> <strong>di</strong>pendenza relative alla principale sono riportate <strong>di</strong> seguito:<br />
sogg (essere, ragazzo)<br />
pred (essere, Giovanni)<br />
sogg (ragazzo, Giovanni)<br />
Un altro importante elemento <strong>di</strong> informazione linguistica è la relazione tra il pronome relativo<br />
che ed il suo antecedente ragazzo che non viene catturata dall’annotazione riportata sopra. È questa<br />
relazione che permette una interpretazione <strong>di</strong> ragazzo come l’inteso oggetto <strong>di</strong>retto <strong>di</strong> ha incontrato.<br />
Per annotare, in maniera esplicita, la relazione che sussiste tra che e ragazzo introduciamo qui <strong>di</strong><br />
seguito una relazione binaria ad hoc chiamata “legame”, il cui primo argomento è costituito<br />
dall’elemento legato (il pronome relativo nel nostro caso) ed il secondo dal nome che lega o<br />
antecedente:<br />
legame (che, ragazzo)<br />
Si noti che l’intesa relazione funzionale tra incontrare e ragazzo può <strong>di</strong> fatto essere inferita dalla<br />
relazione <strong>di</strong> legame che c’è tra che e ragazzo.<br />
Passando al caso della ripresa pronominale in costruzioni a <strong>di</strong>slocazione, si considerino i<br />
seguenti esempi il dolce Maria lo porta domani e Maria lo porta domani, il dolce la cui<br />
rappresentazione in termini funzionali è riportata <strong>di</strong> seguito:<br />
sogg (portare, Maria)<br />
ogg_d (portare, lo)<br />
mod (portare, domani)<br />
Per annotare la relazione che sussiste tra lo e dolce si ricorre alla stessa relazione <strong>di</strong> legame, il<br />
cui primo argomento è costituito dall’elemento legato (il pronome clitico nel nostro caso) ed il<br />
secondo dall’elemento <strong>di</strong>slocato:<br />
legame (lo, dolce)<br />
Anche in questo caso l’intesa relazione funzionale tra portare e dolce può <strong>di</strong> fatto essere inferita<br />
dalla relazione <strong>di</strong> legame che c’è tra lo e dolce.<br />
5.2 Criteri <strong>di</strong> annotazione per il livello funzionale<br />
Dopo aver illustrato a gran<strong>di</strong> linee lo schema <strong>di</strong> annotazione per il livello funzionale, segue una<br />
specifica dei criteri <strong>di</strong> applicazione <strong>di</strong> questo schema al testo, ed in particolare a costruzioni<br />
sintattiche che possono porre particolari problemi <strong>di</strong> annotazione. Questa sezione si propone dunque<br />
come guida all’applicazione dello schema proposto, fornendo criteri <strong>di</strong> identificazione delle<br />
relazioni illustrate sopra e illustrando la rappresentazione <strong>di</strong> fenomeni sintattici lessicalmente<br />
governati (ad esempio schemi <strong>di</strong> sottocategorizzazione associati a classi <strong>di</strong> nomi, verbi e aggettivi)<br />
così come <strong>di</strong> costruzioni complesse che rispondono a principi generali della grammatica<br />
dell’italiano (ad esempio, costruzioni con frasi relative ed interrogative, fenomeni <strong>di</strong> ellissi,<br />
relazioni <strong>di</strong> coreferenza, etc.). Le frasi <strong>di</strong> esempio riportate sotto sono state estratte, ove possibile,<br />
dal corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />
Procederemo con una lista <strong>di</strong> annotazioni <strong>di</strong> riferimento, articolata come segue:<br />
54
Co<strong>di</strong>ce linea e Tema<br />
• criteri per la <strong>di</strong>stinzione tra argomenti e mo<strong>di</strong>ficatori (sezione 5.2.1);<br />
• costruzioni <strong>di</strong> base (sezione 5.2.2);<br />
• costruzioni coor<strong>di</strong>nate (sezione 5.2.3);<br />
• costruzioni ellittiche (sezione 5.2.4);<br />
• annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza (sezione 5.2.5);<br />
• annotazione <strong>di</strong> costruzioni pre<strong>di</strong>cative (sezione 5.2.6);<br />
• annotazione <strong>di</strong> costruzioni causative (sezione 5.2.7);<br />
• annotazione <strong>di</strong> costruzioni partitive (sezione 5.2.8);<br />
• annotazione <strong>di</strong> costruzioni comparative (sezione 5.2.9);<br />
• miscellanea <strong>di</strong> costruzioni tipiche dei testi reali (date, numeri, nomi propri, etc.) (sezione<br />
5.2.10).<br />
5.2.1 Distinzione tra argomenti e mo<strong>di</strong>ficatori<br />
La <strong>di</strong>stinzione tra argomenti e mo<strong>di</strong>ficatori è gestibile senza particolari <strong>di</strong>fficoltà nell’ambito <strong>di</strong><br />
analizzatori sintattici sulla base <strong>di</strong> un lessico <strong>di</strong> riferimento contenente informazione sulla<br />
sottocategorizzazione dei pre<strong>di</strong>cati. Ma l’annotazione <strong>di</strong> una <strong>Treebank</strong> non prevede necessariamente<br />
il ricorso ad un lessico <strong>di</strong> riferimento. Dietro a questa scelta stanno motivi <strong>di</strong> varia natura:<br />
1) le risorse lessicali esistenti sono insufficienti per applicazioni su scala reale per copertura del<br />
lessico sia a livello <strong>di</strong> lemmi che <strong>di</strong> costruzioni sintattiche associate ad essi;<br />
2) una <strong>Treebank</strong> è tipicamente usata anche per acquisire informazione <strong>di</strong> questo tipo, per cui una<br />
proiezione preventiva delle interpretazioni possibili può interferire con i risultati attesi.<br />
La <strong>di</strong>stinzione va dunque demandata all’annotatore del testo, sulla base della sua intuizione. La<br />
<strong>di</strong>fficoltà <strong>di</strong> questo compito è ripetutamente segnalata nella letteratura sulle <strong>Treebank</strong>: Marcus et al.<br />
(1994) sottolineano la <strong>di</strong>fficoltà <strong>di</strong> questa <strong>di</strong>stinzione quando applicata ad un’ampia varietà <strong>di</strong> verbi<br />
e riferita all’uso reale della lingua.<br />
Per guidare l’annotatore nell’interpretazione dei casi incerti, forniamo qui <strong>di</strong> seguito una batteria<br />
<strong>di</strong> criteri ed euristiche basate su test <strong>di</strong> natura sintattica tratti dalla letteratura corrente in proposito<br />
(Somers 1984, Meyers et al. 1994):<br />
• omissibilità/obbligatorietà - se un costituente nel contesto locale <strong>di</strong> un verbo non può<br />
essere omesso, allora si tratta <strong>di</strong> un argomento: ad esempio, in mettere il libro sulla tavola<br />
sia libro che tavola non possono essere omessi (*mettere il libro, *mettere sulla tavola). Si<br />
tratta <strong>di</strong> un criterio affidabile, ma non può essere usato per identificare i mo<strong>di</strong>ficatori dato<br />
che argomenti <strong>di</strong> molti verbi possono essere tranquillamente omessi (si veda ad esempio il<br />
caso <strong>di</strong> mangiare);<br />
55
Co<strong>di</strong>ce linea e Tema<br />
• “retroformazioni” - un costituente nel contesto locale <strong>di</strong> un verbo è un mo<strong>di</strong>ficatore se può<br />
essere riformulato come una frase subor<strong>di</strong>nata: è morto a Dresda, è morto quando era a<br />
Dresda; vive a Parigi, *vive quando è a Parigi. Si tratta <strong>di</strong> un criterio <strong>di</strong> <strong>di</strong>fficile<br />
applicazione dato che molti mo<strong>di</strong>ficatori non possono essere facilmente riformulati in<br />
termini <strong>di</strong> una frase subor<strong>di</strong>nata (i bambini giocano oggi, *i bambini giocano quando è<br />
oggi);<br />
• partecipazione ad alternanze <strong>di</strong> <strong>di</strong>atesi - nel caso <strong>di</strong> verbi con alternanza <strong>di</strong> <strong>di</strong>atesi, i<br />
costituenti che alternano tra <strong>di</strong>verse realizzazioni superficiali nelle <strong>di</strong>verse sono da<br />
considerarsi argomenti. Ad esempio, considerate le frasi ha spalmato il burro sul pane e ha<br />
spalmato il pane con il burro sia burro che pane appaiono essere argomenti <strong>di</strong> spalmare. Si<br />
tratta <strong>di</strong> un criterio utile e sufficientemente affidabile a con<strong>di</strong>zione che l’alternanza sia stata<br />
identificata in modo appropriato;<br />
• “fare lo stesso” test - quando fare lo stesso è usato nella coor<strong>di</strong>nazione <strong>di</strong> frasi come una<br />
proforma del gruppo verbale ripetuto, solo i mo<strong>di</strong>ficatori possono essere esclusi dalla<br />
sostituzione. Ad esempio, si confrontino: Maria ha incontrato Giovanni a Parigi, e Pietro<br />
ha fatto lo stesso a Milano e *Maria ha messo il libro sulla tavola e Giovanni ha fatto lo<br />
stesso sulla se<strong>di</strong>a. Il test è affidabile ma solo per una classe <strong>di</strong> pre<strong>di</strong>cati dalla quale<br />
rimangono fuori gli stativi e in ogni caso tutti i pre<strong>di</strong>cati con i quali la sostituzione con la<br />
proforma farlo è inaccettabile (*Maria è intelligente e Carlo fa lo stesso, ??Maria conosce<br />
la risposta e Carlo fa lo stesso);<br />
• anteposizione - i costituenti con funzione <strong>di</strong> mo<strong>di</strong>ficatori possono essere anteposti<br />
liberamente, mentre gli argomenti possono essere anteposti solo dando luogo a costruzioni<br />
fortemente marcate. Ad esempio, la scorsa settimana ho comprato un libro vs sul pavimento<br />
ho messo il libro. Si tratta <strong>di</strong> criterio affidabile, senza particolari controin<strong>di</strong>cazioni.<br />
Non è detto che i vari criteri convergano sulla stessa interpretazione. Quando la stessa<br />
interpretazione è supportata da un numero significativo <strong>di</strong> test tra quelli elencati sopra, si<br />
raccomanda all’annotatore <strong>di</strong> adottare l’interpretazione per la quale ha raccolto maggiore evidenza.<br />
Per i casi che rimangono incerti si raccomanda si ricorrere alla sottospecificazione dell’analisi,<br />
che nel caso specifico corrisponde alla relazione comp: si può sempre ritornare a rivedere analisi<br />
sottospecificate mentre un’analisi completamente specificata ma erroneamente attribuita <strong>di</strong>venta più<br />
<strong>di</strong>fficilmente recuperabile e dunque correggibile.<br />
5.2.2 Costruzioni <strong>di</strong> base<br />
5.2.2.1 Costruzioni con verbo intransitivo<br />
Gli uomini parlano e sognano sempre <strong>di</strong> un miglioramento<br />
sogg (parlare, uomo)<br />
sogg (sognare, uomo)<br />
obl (parlare, miglioramento.)<br />
obl (sognare, miglioramento.)<br />
mod (parlare, sempre)<br />
mod (sognare, sempre)<br />
cong (parlare, sognare)<br />
56
Co<strong>di</strong>ce linea e Tema<br />
5.2.2.2 Costruzioni con verbo intransitivo inaccusativo<br />
Gli studenti erano giunti nella zona alla spicciolata<br />
sogg (giungere, studente)<br />
arg (giungere, zona.)<br />
mod (giungere, alla_spicciolata)<br />
Slitta la riunione, prevista per oggi, della cosiddetta commissione Sangalli<br />
sogg (slittare, riunione)<br />
mod (riunione, previsto)<br />
comp (previsto, oggi.)<br />
comp (riunione, commissione.)<br />
mod (commissione, cosiddetto)<br />
mod (commissione, Sangalli)<br />
5.2.2.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto<br />
Carnevale ha sbagliato un gol quasi fatto<br />
sogg (sbagliare, Carnevale)<br />
ogg_d (sbagliare, gol)<br />
mod (gol, fatto)<br />
mod (fatto, quasi)<br />
5.2.2.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto<br />
Gullit ha <strong>di</strong>chiarato guerra alla stampa sportiva<br />
sogg (<strong>di</strong>chiarare, Gullit)<br />
ogg_d (<strong>di</strong>chiarare, guerra)<br />
ogg_i (<strong>di</strong>chiarare, stampa.)<br />
mod (stampa, sportivo)<br />
5.2.2.5 Costruzioni con verbo transitivo con complemento obliquo<br />
La Bimex importa prodotti dalla Union Carbide<br />
sogg (importare, Bimex)<br />
ogg_d (importare, prodotto)<br />
obl (importare, Union _Carbide.)<br />
5.2.2.6 Costruzioni passive<br />
I due malavitosi sono stati spesso segnalati in <strong>di</strong>verse occasioni<br />
sogg (segnalare., malavitoso.)<br />
mod (segnalare, spesso)<br />
57
Co<strong>di</strong>ce linea e Tema<br />
mod (segnalare, occasione.)<br />
mod (occasione, <strong>di</strong>verso)<br />
L’accordo è stato firmato ieri al Pentagono dal ministro americano<br />
sogg (firmare., accordo)<br />
mod (firmare, ieri)<br />
mod (firmare, Pentagono.)<br />
comp (firmare, ministro.< introdep =“da”, ruolo=agente>)<br />
mod (ministro, americano)<br />
Anche se l’annotazione a livello <strong>di</strong> relazioni riguarda la sintassi <strong>di</strong> superficie, la rappresentazione<br />
riportata sopra contiene anche in<strong>di</strong>cazione esplicita dell’agente (che viene fornita quando<br />
esplicitamente in<strong>di</strong>cato nella realizzazione superficiale della frase): questa informazione è<br />
convogliata dal tratto ruolo associato all’elemento <strong>di</strong>pendente della relazione comp, il cui valore<br />
specifica che si tratta dell’agente del firmare.<br />
5.2.2.7 Costruzioni con completive sottocategorizzate<br />
Un doppio cordone <strong>di</strong> poliziotti continuava a circondare tutta la piazza<br />
sogg (continuare, cordone)<br />
mod (cordone, doppio)<br />
comp (cordone, poliziotti.< introdep =“<strong>di</strong>”>)<br />
arg (continuare, circondare.< introdep =“a”, status=aperto>)<br />
sogg (circondare, cordone)<br />
ogg_d (circondare, piazza)<br />
mod (piazza, tutto)<br />
Un uomo anziano cercava <strong>di</strong> spiegare che simili azioni non giovano<br />
sogg (cercare, uomo)<br />
mod (uomo, anziano)<br />
arg (cercare, spiegare.< introdep =“<strong>di</strong>”, status=aperto>)<br />
sogg (spiegare, uomo)<br />
arg (spiegare, giovare.< introdep =“che”, status=chiuso>)<br />
sogg (giovare, azione)<br />
mod (azione, simile)<br />
mod (giovare, non)<br />
Luigi ha visto Paolo uscire dal casolare<br />
sogg (vedere, Luigi)<br />
ogg_d (vedere, Paolo)<br />
arg (vedere, uscire.)<br />
sogg (uscire, Paolo)<br />
arg (uscire, casolare.)<br />
Giovanni ha visto Maria correre<br />
58
Co<strong>di</strong>ce linea e Tema<br />
sogg (vedere, Giovanni)<br />
ogg_d (vedere, Maria)<br />
arg (vedere, correre.)<br />
sogg (correre, Maria)<br />
Che i governi europei debbano silenziosamente ingoiarle non è giusto<br />
sogg (essere, ingoiare.< introdep =“che”, status=chiuso, perifra=“dovere”>)<br />
pred (essere, giusto)<br />
mod (essere, non)<br />
sogg (ingoiare, governo)<br />
mod (governo, europeo)<br />
ogg_d (ingoiare, le)<br />
mod (ingoiare, silenziosamente)<br />
sogg (ingoiare, giusto)<br />
5.2.2.8 Costruzioni con interrogative in<strong>di</strong>rette<br />
Le interrogative in<strong>di</strong>rette sono un tipo <strong>di</strong> frase argomentale che presentano un introduttore <strong>di</strong><br />
subor<strong>di</strong>nazione che non può mai essere omesso ed occupa la posizione iniziale: l'elemento<br />
introduttore è un sintagma interrogativo, comprendente un pronome, aggettivo o avverbio della<br />
serie interrogativa (chi, che cosa, come, quando, dove, perché, quale, quanto, etc.). La struttura a<br />
<strong>di</strong>pendenze associata a queste frasi nello schema <strong>di</strong> annotazione funzionale <strong>di</strong> SI-TAL segue le<br />
in<strong>di</strong>cazioni della Word Grammar <strong>di</strong> Hudson (1984:84-85) ed è esemplificata negli esempi che<br />
seguono:<br />
Io non so chi ha parlato<br />
sogg (sapere, io)<br />
arg (sapere, chi)<br />
mod (sapere, non)<br />
sogg (parlare, chi)<br />
So quando è partito<br />
sogg (sapere, )<br />
arg (sapere, quando)<br />
sogg (partire, )<br />
mod (partire, quando)<br />
Come si può notare, l'elemento interrogativo è un <strong>di</strong>pendente con<strong>di</strong>viso da due teste, ovvero dal<br />
pre<strong>di</strong>cato reggente (il verbo nei casi sopra) così come dalla testa verbale della frase interrogativa.<br />
Mentre la seconda relazione <strong>di</strong> <strong>di</strong>pendenza appare scontata, la relazione tra il pre<strong>di</strong>cato reggente e<br />
l'elemento interrogativo non lo è. A favore <strong>di</strong> questo tipo <strong>di</strong> analisi c'è il fatto che l'elemento<br />
interrogativo può occorrere nella frase senza il resto della frase interrogativa: es. non so chi, non so<br />
quando. In questi casi la parola interrogativa non può che <strong>di</strong>pendere da sapere. Un altro argomento<br />
a favore <strong>di</strong> questo tipo <strong>di</strong> analisi sta nel fatto che il pre<strong>di</strong>cato reggente sottocategorizza per una frase<br />
interrogativa all'interno della quale la marca <strong>di</strong> interrogatività è associata all'elemento interrogativo<br />
che la introduce.<br />
59
Co<strong>di</strong>ce linea e Tema<br />
Nel caso in cui l'elemento interrogativo sia costituito da un aggettivo, l'annotazione sarà come<br />
segue:<br />
Non so quale treno abbia preso<br />
sogg (sapere, )<br />
mod (sapere, non)<br />
arg (sapere, treno)<br />
mod (treno, quale)<br />
sogg (prendere, )<br />
ogg_d (prendere, treno)<br />
5.2.2.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)<br />
Dobbiamo vincere domenica per interrompere questo brutto momento<br />
sogg (vincere, . )<br />
mod (vincere, domenica)<br />
mod (vincere, interrompere.)<br />
ogg_d (interrompere, momento)<br />
mod (momento, questo)<br />
mod (momento, brutto)<br />
Il Ministero della Difesa esce allo scoperto per smentire infondate speculazioni<br />
sogg (uscire, Ministero)<br />
mod (ministero, Difesa.)<br />
mod (uscire, allo_scoperto)<br />
mod (uscire, smentire.)<br />
sogg (smentire, Ministero)<br />
ogg_d (smentire, speculazione)<br />
mod (speculazione, infondato)<br />
Gli evasori hanno aggre<strong>di</strong>to gli agenti <strong>di</strong> custo<strong>di</strong>a sparando all’impazzata<br />
sogg (aggre<strong>di</strong>re, evasore)<br />
ogg_d (aggre<strong>di</strong>re, agente)<br />
mod (agente, custo<strong>di</strong>a.)<br />
mod (aggre<strong>di</strong>re, sparare.)<br />
mod (sparare, all’_impazzata)<br />
5.2.2.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto<br />
Maria è <strong>di</strong>ventata una bella ragazza<br />
sogg (<strong>di</strong>ventare, Maria)<br />
pred (<strong>di</strong>ventare, ragazza)<br />
mod (ragazza, bello)<br />
sogg (ragazza, Maria)<br />
60
Co<strong>di</strong>ce linea e Tema<br />
Maria sembra infelice<br />
sogg (sembrare, Maria)<br />
pred (sembrare, infelice)<br />
sogg (infelice, Maria)<br />
Giovanni considera Maria una bella ragazza<br />
sogg (considerare, Giovanni)<br />
ogg_d (considerare, Maria)<br />
pred (considerare, ragazza)<br />
mod (ragazza, bello)<br />
sogg (ragazza, Maria)<br />
Lui considera il loro strumento <strong>di</strong> ricerca un modo <strong>di</strong> fare sol<strong>di</strong> rapidamente<br />
sogg (considerare, lui)<br />
ogg_d (considerare, strumento)<br />
mod (strumento, loro)<br />
mod (strumento, ricerca.)<br />
pred (considerare, modo)<br />
arg (modo, fare.)<br />
ogg_d (fare, soldo)<br />
mod (fare, rapidamente)<br />
sogg (modo, strumento)<br />
Brancati considerava i siciliani il popolo più intelligente d’Europa<br />
sogg (considerare, Brancati)<br />
ogg_d (considerare, siciliano)<br />
pred (considerare, popolo)<br />
mod (popolo, intelligente)<br />
mod (intelligente, più)<br />
comp (intelligente, Europa.)<br />
sogg (popolo, siciliano)<br />
Come si può notare dall’analisi e dal confronto delle frasi annotate riportate sopra, a livello della<br />
relazione assegnata – pred - non si fa <strong>di</strong>stinzione tra complemento pre<strong>di</strong>cativo del soggetto e<br />
dell’oggetto. Questa informazione è comunque implicita nell’annotazione globale della frase.<br />
Quando dalla testa verbale del complemento pre<strong>di</strong>cativo <strong>di</strong>penda anche un oggetto <strong>di</strong>retto (ogg_d),<br />
la relazione pred è da interpretarsi come pre<strong>di</strong>cativa dell’oggetto; in caso contrario, il complemento<br />
pre<strong>di</strong>cativo si riferisce al soggetto; questa informazione è co<strong>di</strong>ficato me<strong>di</strong>ante la relazione sogg che<br />
è usata per contrassegnare il soggetto del complemento pre<strong>di</strong>cativo (del soggetto o dell’oggetto).<br />
Da un’analisi attenta dell’annotazione adottata dovrebbe risultare evidente la sua compatibilità<br />
sia con schemi che marcano la <strong>di</strong>pendenza tra il complemento pre<strong>di</strong>cativo e la testa verbale, sia con<br />
interpretazioni che guardano al complemento pre<strong>di</strong>cativo in termini <strong>di</strong> frase ridotta governata dalla<br />
testa verbale.<br />
61
Co<strong>di</strong>ce linea e Tema<br />
5.2.2.11 Complementazione <strong>di</strong> nomi e aggettivi<br />
Eriksson non ha idea della piega inferta alla nostra penisola<br />
sogg (avere, Eriksson)<br />
ogg_d (avere, idea)<br />
mod (avere, non)<br />
comp (idea, piega.)<br />
mod (piega, inferto)<br />
arg (inferto, penisola.)<br />
mod (penisola, nostro)<br />
Viola deve fare esperienza sui pedatori a <strong>di</strong>sposizione e sui tecnici<br />
sogg (fare., Viola)<br />
ogg_d (fare, esperienza)<br />
arg (esperienza, pedatore.)<br />
mod (pedatore, a_<strong>di</strong>sposizione )<br />
arg (esperienza, tecnico.)<br />
cong (pedatore, tecnico)<br />
Il Parlamento incomincerà un <strong>di</strong>battito sulla partecipazione al programma<br />
sogg (incominciare, Parlamento)<br />
ogg_d (incominciare, <strong>di</strong>battito)<br />
comp (<strong>di</strong>battito, partecipazione.)<br />
arg (partecipazione, programma.)<br />
Fonti dell’amministrazione hanno auspicato un’intesa con il governo<br />
sogg (auspicare, fonte)<br />
mod (fonte, amministrazione.)<br />
ogg_d (auspicare, intesa)<br />
arg (intesa, governo.)<br />
La società sarà integrata con il settore cucine della Candy<br />
sogg (integrare., società)<br />
obl (integrare, settore.)<br />
mod (settore, cucina)<br />
comp (settore, Candy.)<br />
La credenza che la Terra sia rotonda è ra<strong>di</strong>cata<br />
sogg (essere 2 , credenza)<br />
pred (essere 2 , ra<strong>di</strong>cato)<br />
sogg (ra<strong>di</strong>cato, credenza)<br />
arg (credenza, essere 1 .)<br />
sogg (essere 1 , Terra)<br />
pred (essere 1 , rotondo)<br />
sogg (rotondo, Terra)<br />
62
Co<strong>di</strong>ce linea e Tema<br />
5.2.2.12 Negazione<br />
Io non mangio panini con la mortadella<br />
sogg (mangiare, io)<br />
mod (mangiare, non)<br />
ogg_d (mangiare, panino)<br />
mod (panino, mortadella.)<br />
I bambini non devono guardare film violenti<br />
sogg (guardare., bambino)<br />
mod (guardare, non)<br />
ogg_d (guardare, film)<br />
mod (film, violento)<br />
5.2.2.13 Costruzioni esistenziali<br />
C’è una vespa nella mia camera<br />
mod (essere, ci)<br />
sogg (essere, vespa)<br />
pred (essere, camera.)<br />
mod (camera, mia)<br />
Paolo ha visto che c’era Maria con Luigi<br />
sogg (vedere, Paolo)<br />
arg (vedere, essere.)<br />
mod (essere, ci)<br />
sogg (essere, Maria)<br />
mod (essere, Luigi.)<br />
5.2.3 Costruzioni coor<strong>di</strong>nate<br />
• Coor<strong>di</strong>nazione <strong>di</strong> soggetti<br />
I superstiti e i parenti delle vittime hanno espresso malumore per la scarcerazione<br />
sogg (esprimere, superstite)<br />
sogg (esprimere, parente)<br />
cong (superstite, parente)<br />
comp (parente, vittima.)<br />
ogg_d (esprimere, malumore)<br />
mod (malumore, scarcerazione.)<br />
• Frasi composte con proposizioni coor<strong>di</strong>nate<br />
La donna sbrigava le faccende <strong>di</strong> casa e doveva avere familiarità con i cani<br />
63
Co<strong>di</strong>ce linea e Tema<br />
sogg (sbrigare, donna)<br />
ogg_d (sbrigare, faccenda)<br />
mod (faccenda, casa.)<br />
sogg (avere., donna)<br />
ogg_d (avere., familiarità)<br />
comp (familiarità, cane.)<br />
cong (sbrigare, avere.)<br />
• Coor<strong>di</strong>nazione aggettivale<br />
Il fatturato complessivo delle società controllate e collegate è elevato<br />
sogg (essere, fatturato)<br />
mod (fatturato, complessivo)<br />
mod (fatturato, società.)<br />
mod (società, controllato)<br />
mod (società, collegato)<br />
cong (controllato, collegato)<br />
pred (essere, elevato)<br />
sogg (elevato, fatturato)<br />
• Coor<strong>di</strong>nazione <strong>di</strong> complementi<br />
Tale incremento è dovuto all’aumento <strong>di</strong> capitale, all’utile d’esercizio ed ai contributi per<br />
l’e<strong>di</strong>toria<br />
sogg (essere, incremento)<br />
mod (incremento, tale)<br />
pred (essere, dovuto)<br />
sogg (dovuto, incremento)<br />
arg (dovuto, aumento.)<br />
comp (aumento, capitale.)<br />
arg (dovuto, utile.)<br />
mod (utile, esercizio.)<br />
arg (dovuto, contributo.)<br />
comp (contributo, e<strong>di</strong>toria.)<br />
cong (aumento, utile)<br />
cong (utile, contributo)<br />
Il mun<strong>di</strong>al <strong>di</strong> calcio termina con la finalissima <strong>di</strong> domenica sera e con i risultati conosciuti<br />
sogg (terminare, mun<strong>di</strong>al)<br />
mod (mun<strong>di</strong>al, calcio.)<br />
comp (terminare, finalissima.)<br />
mod (finalissima, domenica.)<br />
mod (domenica, sera)<br />
comp (terminare, risultato.)<br />
mod (risultato, conosciuto)<br />
cong (finalissima, risultato)<br />
• Con<strong>di</strong>visione <strong>di</strong> complementi in costruzioni coor<strong>di</strong>nate<br />
64
Co<strong>di</strong>ce linea e Tema<br />
L’assemblea <strong>di</strong> ieri ha confermato Eugenio Scalfari ed ha deliberato <strong>di</strong> aumentare il<br />
numero dei consiglieri<br />
sogg (confermare, assemblea)<br />
mod (assemblea, ieri.)<br />
ogg_d (confermare, Eugenio_Scalfari)<br />
sogg (deliberare, assemblea)<br />
arg (deliberare, aumentare.)<br />
sogg (aumentare, assemblea)<br />
ogg_d (aumentare, numero)<br />
arg (numero, consigliere.)<br />
cong (confermare, deliberare)<br />
Questo esempio illustra la strategia che è stata adottata nell’ambito della <strong>Treebank</strong> <strong>di</strong> SI-TAL per<br />
l’annotazione <strong>di</strong> argomenti o mo<strong>di</strong>ficatori con<strong>di</strong>visi da più <strong>di</strong> una testa in strutture coor<strong>di</strong>nate. Si<br />
può notare che l’annotazione <strong>di</strong> complementi con<strong>di</strong>visi non costituisce particolare problema<br />
nell’ambito <strong>di</strong> uno schema <strong>di</strong> rappresentazione funzionale, al contrario dei problemi invece<br />
tipicamente posti da complementi con<strong>di</strong>visi a livello <strong>di</strong> rappresentazione a costituenti.<br />
• Altre costruzioni coor<strong>di</strong>nate<br />
Costruzioni coor<strong>di</strong>nate con ma vengono annotate con la relazione <strong>di</strong> congiunzione (“cong”): in<br />
questo caso il secondo partecipante deve avere “ma”come valore <strong>di</strong> “introsim”.<br />
… il bilancio ha ottenuto risultati <strong>di</strong> rilievo, in campo economico e sindacale, ma anche sul<br />
fronte dell’autonomia…<br />
cong (campo, fronte.)<br />
5.2.4 Costruzioni ellittiche<br />
Questa sezione illustra la strategia <strong>di</strong> annotazione <strong>di</strong> costruzioni ellittiche messa a punto per la<br />
<strong>Treebank</strong> <strong>di</strong> SI-TAL. Negli esempi riportati finora, le relazioni funzionali riguardano istanze <strong>di</strong><br />
parole in un testo. Le costruzioni ellittiche, d’altra parte, sembra che richiedano che le relazioni<br />
funzionali debbano essere stabilite tra un’istanza <strong>di</strong> una parola ed un tipo astratto, definito me<strong>di</strong>ante<br />
tratti o me<strong>di</strong>ante un tipo lessicale.<br />
5.2.4.1 Ellissi del soggetto<br />
Ho visto Maria uscire <strong>di</strong> casa<br />
sogg (vedere, . )<br />
ogg_d (vedere, Maria)<br />
arg (vedere, uscire.)<br />
sogg (uscire, Maria)<br />
arg (uscire, casa.< introdep =“<strong>di</strong>”>)<br />
Abbiamo visto l’opera nella piazza del paese<br />
sogg (vedere, . )<br />
ogg_d (vedere, opera)<br />
65
Co<strong>di</strong>ce linea e Tema<br />
mod (vedere, piazza.< introdep =“in”>)<br />
mod (piazza, paese.< introdep =“<strong>di</strong>”><br />
5.2.4.2 Ellissi del verbo<br />
Si consideri l’esempio che segue:<br />
Gli esempi sono scritti in corsivo, le glosse in stampatello<br />
sogg (scrivere., esempio)<br />
mod (scrivere, corsivo.< introdep =“in”>)<br />
sogg (SCRIVERE., glossa)<br />
mod (SCRIVERE, stampatello.< introdep =“in”>)<br />
dove glossa e stampatello sono rispettivamente soggetto e mo<strong>di</strong>ficatore <strong>di</strong> un tipo astratto che<br />
non ha alcuna istanziazione nel testo, corrispondente al lemma scritto in maiuscolo, ovvero<br />
SCRIVERE.<br />
Seguono altri esempi <strong>di</strong> costruzioni ellittiche e relativa annotazione secondo lo schema proposto.<br />
La ballata <strong>di</strong> Mackie Messer è cantata da Sting, Jenny dei pirati dalla Nannini<br />
sogg (cantare., ballata)<br />
mod (ballata, Mackie_Messer.< introdep =“<strong>di</strong>”>)<br />
comp (cantare, Sting.)<br />
sogg (CANTARE., Jenny)<br />
mod (Jenny, pirata.)<br />
comp (CANTARE, Nannini.)<br />
Molti <strong>di</strong>ranno che è il trionfo della marcatura a uomo, io no<br />
sogg (<strong>di</strong>re, molto)<br />
arg (<strong>di</strong>re, essere.)<br />
pred (essere, trionfo)<br />
comp (trionfo, marcatura.)<br />
mod (marcatura, a_uomo)<br />
sogg (DIRE, io)<br />
comp (DIRE, no)<br />
Gli esempi riportati fino a questo punto presentano casi <strong>di</strong> ellissi in strutture coor<strong>di</strong>nate, dove nel<br />
secondo congiunto si osserva l’omissione del verbo. Nell’annotazione proposta le relazioni <strong>di</strong><br />
<strong>di</strong>pendenza del secondo congiunto fanno riferimento ad una testa verbale astratta, ricostruita a<br />
partire dall’analisi del primo congiunto. Ma non è sempre il caso che il materiale ellittico sia<br />
ricostruibile dall’analisi della frase. Si consideri ad esempio il caso seguente, che presenta l’ellissi<br />
della copula:<br />
Queste le principali raccomandazioni rivolte all’Italia dalla commissione europea<br />
sogg ( , questo)<br />
pred ( , raccomandazione)<br />
mod (raccomandazione, principale)<br />
66
Co<strong>di</strong>ce linea e Tema<br />
mod (raccomandazione, rivolgere.)<br />
ogg_i (rivolgere, Italia.< introdep =“a”>)<br />
comp (rivolgere, commissione.< introdep =“da”,ruolo=agente>)<br />
mod (commissione, europeo)<br />
L’annotazione riportata sopra contiene due relazioni <strong>di</strong> <strong>di</strong>pendenza la cui testa non è specificata.<br />
5.2.4.3 Ellissi in costruzioni verbali perifrastiche<br />
L'ellissi dell'ausiliare in tempi composti oppure del verbo modale, aspettuale o causativo in<br />
costruzioni perifrastiche <strong>di</strong> varia natura (si veda la sezione 5.1.1.1.2.2) viene gestita al livello della<br />
descrizione in tratti dei partecipanti alla relazione funzionale.<br />
Si prenda ad esempio un caso <strong>di</strong> ellissi del verbo modale:<br />
Si possono scegliere i fon<strong>di</strong> e realizzare bordure<br />
L’annotazione prevede la co<strong>di</strong>fica del verbo modale sia in relazione a scegliere sia a realizzare. I<br />
due casi sono <strong>di</strong>fferenziati come segue:<br />
ogg_d (scegliere., fondo)<br />
ogg_d (realizzare., bordura)<br />
ovvero nel caso <strong>di</strong> ellissi del modale, il valore associato al tratto perifra è marcato da un<br />
asterisco.<br />
Analoga strategia <strong>di</strong> annotazione viene adottata nei casi <strong>di</strong> ellissi dell’ausiliare e negli altri tipi <strong>di</strong><br />
costruzioni perifrastiche.<br />
5.2.5 Annotazione <strong>di</strong> relazioni <strong>di</strong> coreferenza<br />
L’annotazione delle relazioni <strong>di</strong> coreferenza è esemplificata me<strong>di</strong>ante il caso delle frasi relative:<br />
Prost lascia la McLaren per una Ferrari che non cammina<br />
sogg (lasciare, Prost)<br />
ogg_d (lasciare, McLaren)<br />
obl (lasciare, Ferrari.< introdep =“per”>)<br />
sogg (camminare, che)<br />
mod (camminare, non)<br />
legame (che, Ferrari)<br />
Il presidente ha in<strong>di</strong>cato le imprese italiane che producono e importano energia<br />
sogg (in<strong>di</strong>care, presidente)<br />
ogg_d (in<strong>di</strong>care, impresa)<br />
mod (impresa, italiano)<br />
sogg (produrre, che)<br />
sogg (importare, che)<br />
ogg_d (produrre, energia)<br />
ogg_d (importare, energia)<br />
67
Co<strong>di</strong>ce linea e Tema<br />
cong (produrre, importare)<br />
legame (che, impresa)<br />
Il paese dove io sono nato è lontano<br />
sogg (essere, paese)<br />
pred (essere, lontano)<br />
sogg (lontano, paese)<br />
sogg (nascere, io)<br />
comp (nascere, dove)<br />
legame (dove, paese)<br />
5.2.6 Casi particolari <strong>di</strong> costruzioni pre<strong>di</strong>cative<br />
• Costruzioni pre<strong>di</strong>cative con fare<br />
Seguendo Renzi (1991, pagg. 195-6) e Schwarze (1995, pag. 122), costruzioni del tipo fare da<br />
autista a qualcuno e fare come uno sconosciuto con qualcuno sono annotate come segue: viene<br />
stabilita una relazione <strong>di</strong> pre<strong>di</strong>cazione (pred) tra il verbo fare e il sostantivo che svolge il ruolo <strong>di</strong><br />
pre<strong>di</strong>cato (fare e autista, fare e sconosciuto). Nella descrizione del pre<strong>di</strong>cato, viene specificato<br />
l'introduttore (dando luogo rispettivamente a introdep=“da” e introdep=“come”). Lo stesso<br />
trattamento viene riservato a costruzioni analoghe con i verbi fungere e servire.<br />
• Costruzioni pre<strong>di</strong>cative con avere<br />
Un complemento pre<strong>di</strong>cativo dell'oggetto può accompagnare molti verbi transitivi nel loro<br />
significato basico. Questo tipo <strong>di</strong> complemento pre<strong>di</strong>cativo è particolarmente frequente con avere<br />
(Renzi, vol. 2, p. 201). Si consideri l'esempio che segue:<br />
Essi avevano come protagonista il citta<strong>di</strong>no<br />
ogg_d (avere, citta<strong>di</strong>no)<br />
pred (avere, protagonista.)<br />
• Costruzioni pre<strong>di</strong>cative con essere<br />
Costruzioni del tipo “essere in/a + sostantivo” (Luigi è a/in casa) “essere da + infinito” (le mele<br />
sono da mangiare) sono annotate come segue:<br />
Luigi è in casa<br />
pred (essere, casa.)<br />
5.2.7 Costruzioni causative<br />
Nello schema <strong>di</strong> annotazione funzionale <strong>di</strong> SI-TAL le costruzioni causative sono annotate come<br />
segue:<br />
Io ho fatto applicare la legge<br />
sogg (fare, io)<br />
arg(fare, applicare)<br />
68
Co<strong>di</strong>ce linea e Tema<br />
ogg_d(applicare, legge)<br />
Ho fatto fare qualche ricerca alla mia segretaria<br />
sogg (fare1, )<br />
arg(fare1, fare2)<br />
ogg_i(fare1, segretaria.)<br />
sogg(fare2, segretaria)<br />
ogg_d(fare2, ricerca)<br />
mod(segretaria, mio)<br />
Ho fatto partire la macchina<br />
sogg (fare, )<br />
ogg(fare, macchina)<br />
arg(fare, partire)<br />
sogg(partire, macchina)<br />
5.2.8 Costruzioni partitive<br />
In costruzioni partitive del tipo dello stile impero sopravvive una certa indulgenza, l’espressione<br />
partitiva viene annotata come un mo<strong>di</strong>ficatore del soggetto. Nella frase <strong>di</strong> esempio, impero viene<br />
annotato come mo<strong>di</strong>ficatore <strong>di</strong> indulgenza come illustrato <strong>di</strong> seguito:<br />
Dello stile impero sopravvive una certa indulgenza<br />
mod (indulgenza, stile.)<br />
5.2.9 Annotazione delle costruzioni con superlativo e con strutture comparative<br />
5.2.9.1 Superlativi<br />
• Superlativo assoluto<br />
Il grado superlativo assoluto <strong>di</strong> un aggettivo può essere espresso in forma sintetica (e cioè con<br />
l’aiuto del suffisso -issimo, o <strong>di</strong> prefissi del tipo stra-, -arci ecc.) o in forma analitica, con l’aiuto <strong>di</strong><br />
un mo<strong>di</strong>ficatore avverbiale (molto, assai) solitamente preposto all’aggettivo. Quando espresso in<br />
forma sintetica, il grado è annotato con l’attribuzione del valore “superlativo” al tratto ruolo<br />
relativo all’aggettivo. Quando espresso in forma analitica, l’annotazione riguarda sia il livello <strong>di</strong><br />
relazioni <strong>di</strong> <strong>di</strong>pendenza sia il livello dei tratti che descrivono l'aggettivo, ovvero:<br />
• nella descrizione in tratti dell’aggettivo<br />
• l'attribuzione del valore <strong>di</strong> “superlativo” al tratto ruolo;<br />
• al livello relazionale, me<strong>di</strong>ante la definizione <strong>di</strong> una relazione <strong>di</strong> mo<strong>di</strong>ficazione tra la testa<br />
aggettivale e il mo<strong>di</strong>ficatore avverbiale.<br />
Si veda l'esempio che segue:<br />
69
Co<strong>di</strong>ce linea e Tema<br />
Paolo è molto bello<br />
sogg (essere, Paolo)<br />
pred (essere, bello.)<br />
mod (bello, molto)<br />
sogg (bello, Paolo)<br />
• Superlativo relativo<br />
Le costruzioni con un aggettivo <strong>di</strong> grado superlativo relativo prevedono: i) l’obbligo del tratto <strong>di</strong><br />
definitezza o sull’aggettivo o sul sostantivo che l’aggettivo mo<strong>di</strong>fica; ii) l’espressione del grado o<br />
sinteticamente (per alcune forme aggettivali lessicalmente “marcate” come migliore, maggiore ecc.)<br />
o analiticamente attraverso l’avverbio più in posizione obbligatoriamente pre-aggettivale; iii) una<br />
restrizione opzionale dell’ambito relativamente al quale viene espresso il grado superlativo<br />
dell’aggettivo in questione. Nel caso più comune in cui il superlativo relativo venga espresso in<br />
forma analitica, l’annotazione riguarda sia il livello <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza sia il livello dei tratti<br />
che descrivono l’aggettivo, ovvero:<br />
• nella descrizione in tratti dell'aggettivo, me<strong>di</strong>ante:<br />
• l'attribuzione del valore <strong>di</strong> “superlativo” al tratto ruolo;<br />
• l'attribuzione del valore <strong>di</strong> “+” al tratto definitezza;<br />
• al livello relazionale, me<strong>di</strong>ante la definizione <strong>di</strong> una relazione <strong>di</strong> mo<strong>di</strong>ficazione tra la testa<br />
aggettivale e il più.<br />
La relazione tra l’aggettivo e il suo ambito viene annotata in termini <strong>di</strong> comp; inoltre, al livello<br />
della descrizione del <strong>di</strong>pendente viene assegnato il valore”ambito” al tratto ruolo.<br />
Si veda l'esempio che segue:<br />
Il ragazzo più prestigioso d’America<br />
mod (ragazzo, prestigioso)<br />
mod (prestigioso, più)<br />
comp (prestigioso, America.)<br />
5.2.9.2 Costruzioni comparative<br />
Le costruzioni comparative pongono notevoli <strong>di</strong>fficoltà <strong>di</strong> annotazione derivanti dai fenomeni <strong>di</strong><br />
<strong>di</strong>scontinuità e <strong>di</strong> ellissi che le caratterizzano. Inoltre, l'estrema varietà <strong>di</strong> questo tipo <strong>di</strong> costruzioni<br />
nell'uso reale della lingua e la <strong>di</strong>ffusa presenza <strong>di</strong> costruzioni “marginali” o <strong>di</strong> dubbia accettabilità<br />
ne rendono l'annotazione ancora più <strong>di</strong>fficoltosa.<br />
In linea <strong>di</strong> principio, ogni struttura comparativa contiene un elemento “comparato” (quello<br />
tipicamente designato come primo termine <strong>di</strong> paragone) ed un elemento “comparativo” (detto anche<br />
secondo termine <strong>di</strong> paragone). Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL, tra i due elementi della struttura<br />
comparativa viene stabilita una relazione <strong>di</strong> tipo comp, dove la testa è rappresentata dall'elemento<br />
comparato e il <strong>di</strong>pendente dall'elemento comparativo; la funzione <strong>di</strong> elemento comparativo è<br />
esplicitamente marcata al livello del tratto ruolo del <strong>di</strong>pendente, al quale viene assegnato il valore<br />
“compar(ativo)”.<br />
70
Co<strong>di</strong>ce linea e Tema<br />
E' più intelligente dell’insegnante<br />
sogg (essere, .)<br />
pred (essere, intelligente)<br />
mod (intelligente, più)<br />
comp (intelligente, insegnante.)<br />
Ho visto più uomini che donne<br />
sogg (vedere, .)<br />
ogg (vedere, uomo)<br />
mod (uomo, più)<br />
comp (uomo, donna.)<br />
Questo schema <strong>di</strong> annotazione, per quanto non interamente sod<strong>di</strong>sfacente, risponde al criterio<br />
generale <strong>di</strong> non considerare come teste <strong>di</strong> una <strong>di</strong>pendenza parole con funzioni marcatamente<br />
grammaticali, appartenenti a classi chiuse. Inoltre risolve il problema dell’in<strong>di</strong>viduazione della testa<br />
anche in quei casi dove il grado comparativo risulta lessicalizzato (o realizzato sinteticamente),<br />
come in aggettivi del tipo migliore, maggiore ecc. Torneremo sulla comparazione nella parte finale<br />
<strong>di</strong> questa sezione per <strong>di</strong>scutere più nel dettaglio alcuni aspetti <strong>di</strong> questo fenomeno e dei problemi<br />
legati alla loro annotazione.<br />
5.2.10 Miscellanea<br />
In questa sezione, vengono riportate le specifiche <strong>di</strong> annotazione per costruzioni particolarmente<br />
ricorrenti in un corpus giornalistico quale quello della <strong>Treebank</strong> <strong>di</strong> SI-TAL: ad esempio, date,<br />
numeri, nomi propri, costruzioni appositive <strong>di</strong> vario tipo. Grammatiche <strong>di</strong> riferimento della lingua<br />
italiana relegano questa tipologia <strong>di</strong> costruzioni sintattiche ad una posizione del tutto marginale, ma<br />
nell'annotazione <strong>di</strong> un corpus <strong>di</strong> lingua reale non possono essere ignorate. I paragrafi che seguono<br />
dettagliano le specifiche <strong>di</strong> annotazione per questa miscellanea <strong>di</strong> costruzioni.<br />
5.2.10.1 Annotazione delle date<br />
All'interno <strong>di</strong> un testo, le date compaiono in più forme. Ad esempio:<br />
1. il 25 <strong>di</strong>cembre 1999 sono partito<br />
2. nel 2000, sono partito<br />
3. nel/in maggio, sono partito<br />
Per l'annotazione funzionale delle date, si è stabilito che la testa funzionale è costituita<br />
dall’elemento che seleziona la preposizione o l’articolo che precede l’intera espressione temporale.<br />
Nei casi precedenti, le teste funzionali sono rispettivamente 25 (1), 2000 (2) e maggio (3) dando<br />
così luogo alle seguenti annotazioni:<br />
1. mod (partire, 25.)<br />
mod (25, <strong>di</strong>cembre)<br />
mod (<strong>di</strong>cembre, 1999)<br />
2. mod (partire, 2000.)<br />
3. mod (partire, maggio.)<br />
71
Co<strong>di</strong>ce linea e Tema<br />
5.2.10.2 Annotazione <strong>di</strong> car<strong>di</strong>nalità complessa<br />
La maggior parte delle espressioni numeriche nell'uso reale del corpus non riportano la cifra<br />
come una espressione unica ma sono spesso riportate nei termini <strong>di</strong> espressioni del tipo “20 mila<br />
dollari”. Il problema <strong>di</strong> annotazione che si pone in questo caso riguarda il fatto se si debba fornire<br />
un'analisi interna <strong>di</strong> “20 mila” in termini <strong>di</strong> testa e <strong>di</strong>pendente. Considerata la tipologia <strong>di</strong> usi <strong>di</strong> cui<br />
vuole essere suscettibile la <strong>Treebank</strong> <strong>di</strong> SI-TAL, si è deciso <strong>di</strong> ricorrere alla soluzione <strong>di</strong> annotare<br />
“dollari” con una car<strong>di</strong>nalità complessa <strong>di</strong> “20 mila”, come esemplificato dall'esempio che segue:<br />
Sfiora i 4 mila miliar<strong>di</strong><br />
ogg_d (sfiorare, miliardo.)<br />
5.2.10.3 Annotazione <strong>di</strong> nomi propri<br />
5.2.10.3.1 Annotazione <strong>di</strong> nome e cognome<br />
Nel caso <strong>di</strong> nomi propri espressi in termini <strong>di</strong> nome e cognome qual è il caso <strong>di</strong> “Lamberto<br />
Dini”, è stato stabilito che, per questioni inerenti il recupero <strong>di</strong> informazioni dalla base dati, la testa<br />
debba essere il cognome della persona, mentre il nome costituisca un mo<strong>di</strong>ficatore del cognome<br />
stesso. Questo vale in<strong>di</strong>pendentemente dall'or<strong>di</strong>ne <strong>di</strong> apparizione <strong>di</strong> nome e cognome nel testo.<br />
5.2.10.3.2 Annotazione <strong>di</strong> nomi propri composti<br />
Per quanto riguarda casi quale “Carlo Azeglio Ciampi” in cui il nome <strong>di</strong> una persona è composto<br />
da due nomi e da un cognome, è stato deciso che si devono annotare i due nomi come due <strong>di</strong>versi<br />
mo<strong>di</strong>ficatori del cognome. Es.:<br />
Carlo Azeglio Ciampi<br />
mod (Ciampi, Carlo)<br />
mod (Ciampi, Azeglio)<br />
5.2.10.4 Annotazione <strong>di</strong> costruzioni appositive <strong>di</strong> vario tipo<br />
• Il neo ministro, Mario Rossi, ha deciso <strong>di</strong> <strong>di</strong>mettersi<br />
sogg (decidere, ministro)<br />
mod (ministro, neo)<br />
mod (ministro, Rossi)<br />
mod (Rossi, Mario)<br />
arg (decidere, <strong>di</strong>mettersi)<br />
• Elenco <strong>di</strong> istanze in costruzioni del tipo i seguenti in<strong>di</strong>ci: incremento … aumento … La<br />
strategia <strong>di</strong> annotazione che è stata decisa per il trattamento <strong>di</strong> questi casi consiste nel<br />
marcare le singole istanze che seguono i due punti come mo<strong>di</strong>ficatori della testa nominale<br />
in<strong>di</strong>ci.<br />
72
Co<strong>di</strong>ce linea e Tema<br />
5.2.10.5 Annotazione degli incisi in testa agli articoli<br />
Per quanto riguarda gli incisi che si trovano all’inizio <strong>di</strong> molti articoli e che sono solitamente<br />
rappresentati da nomi <strong>di</strong> località o <strong>di</strong> città, è stato deciso che non vengono annotati, data la <strong>di</strong>fficoltà<br />
<strong>di</strong> stabilire la natura della loro relazione con la frase che segue: può trattarsi della locazione<br />
dell'evento descritto nell'articolo, oppure del luogo della scrittura ma questo non può sempre essere<br />
inferito dal testo.<br />
Pisa. Nuovi sviluppi nell’indagine<br />
mod (sviluppo, nuovo)<br />
mod (sviluppi, indagine)<br />
5.2.10.6 Un caso particolare <strong>di</strong> congiunzione<br />
Un caso particolare <strong>di</strong> congiunzione è quello che si osserva in espressioni del tipo 11 e 30, un<br />
chilo e mezzo. In questo caso la congiunzione e non viene trattata come congiunzione coor<strong>di</strong>nante<br />
all'interno <strong>di</strong> una struttura coor<strong>di</strong>nata; viene piuttosto annotata come l'introduttore <strong>di</strong> un<br />
mo<strong>di</strong>ficatore, che è costituito da 30 e da mezzo nei casi riportati sopra.<br />
5.2.11 Problemi aperti<br />
Le specifiche ed i criteri <strong>di</strong> annotazione dettagliati finora hanno trovato nella <strong>Treebank</strong> <strong>di</strong> SI-<br />
TAL un fertile terreno <strong>di</strong> verifica. Rimangono comunque una serie <strong>di</strong> problemi aperti, <strong>di</strong> cui è<br />
emersa consapevolezza nel corso del processo <strong>di</strong> annotazione e per i quali – al momento - non è<br />
prospettata alcuna soluzione <strong>di</strong> annotazione. Tra questi, si annovera l'annotazione <strong>di</strong>:<br />
• espressioni complesse in lingua straniera, quali quali Massachussets Institute of Technology<br />
o Bank of China, che pongono il problema - oltre dello stabilire quale sia la testa e quale il<br />
<strong>di</strong>pendente - anche dell'annotazione della preposizione of. Analogo problema si pone per<br />
l'annotazione dell'espressione Cagnotti and Partners, in particolare per quanto riguarda<br />
l'annotazione della congiunzione straniera;<br />
• costruzioni ellittiche complesse: in una frase del tipo la RAI partiva da un volume <strong>di</strong> 30 mila<br />
spot, la Fininvest <strong>di</strong> 127 mila l’ellissi non riguarda un singolo costituente bensì un segmento<br />
<strong>di</strong> frase;<br />
• espressioni comparative con il secondo termine della comparazione <strong>di</strong>verso da un sintagma<br />
nominale.<br />
In relazione a quest’ultimo punto, va notato che l’evidenza del corpus ha messo in luce alcune<br />
inadeguatezze e insufficienze delle annotazioni proposte. Una revisione delle specifiche in corso<br />
d’opera, oltre a porre ovvi problemi <strong>di</strong> “allineamento” delle nuove annotazioni con le vecchie,<br />
avrebbe potuto rivelarsi in ultima analisi controproducente. C’era il rischio infatti che una revisione<br />
precipitosa delle specifiche relative all’annotazione <strong>di</strong> una sotto-classe <strong>di</strong> fenomeni risultasse infine<br />
incompatibile con altri fenomeni venuti alla luce più tar<strong>di</strong> nel corso dell’annotazione, con un<br />
preoccupante effetto <strong>di</strong> “revisioni a cascata”. Abbiamo pertanto preferito, in questa fase, premiare la<br />
coerenza complessiva della base dati risultante a spese dell’adeguatezza descrittiva dell’annotazione<br />
e della sua aderenza all’uso linguistico reale. Riportiamo qui <strong>di</strong> seguito alcuni dei problemi emersi e<br />
73
Co<strong>di</strong>ce linea e Tema<br />
delle possibili strategie con le quali affrontarli. Questa casistica resta frammentaria, e la <strong>di</strong>scussione<br />
che segue è ancora lontana dal definire un quadro coerente e esaustivo.<br />
Un primo problema è rappresentato dalla scelta <strong>di</strong> non annotare più come la testa <strong>di</strong> una<br />
relazione <strong>di</strong> <strong>di</strong>pendenza. Si consideri a questo proposito il seguente esempio:<br />
E' più intelligente dell’insegnante<br />
sogg (essere, .)<br />
pred (essere, intelligente)<br />
mod (intelligente, più)<br />
comp (intelligente, insegnante.)<br />
Considerare insegnante come sintatticamente <strong>di</strong>pendente da intelligente (piuttosto che da più)<br />
sembra non interamente adeguato sul piano sintattico, soprattutto in considerazione del fatto che più<br />
ha, in questo contesto, un chiaro uso avverbiale. Inoltre, mentre la relazione <strong>di</strong> <strong>di</strong>pendenza tra<br />
intelligente e insegnante sembra catturare una restrizione semantica tra le due parole, in un esempio<br />
come ho letto più libri <strong>di</strong> Mario, <strong>di</strong>venta <strong>di</strong>fficile postulare, per simmetria con l’esempio<br />
precedente, una restrizione <strong>di</strong> uguale natura tra libro e Mario. D’altra parte, il fatto che, in generale,<br />
la comparazione coinvolga tipicamente costruzioni grammaticali complesse costituisce un problema<br />
non banale per un livello <strong>di</strong> annotazione funzionale (come quello adottato in SI-TAL) che ha come<br />
obiettivo primario la definizione <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza tra parole “piene”.<br />
Un secondo problema è dato dall’uso del che per introdurre un secondo termine <strong>di</strong> paragone non<br />
costituito da un sintagma nominale, come nel seguente esempio:<br />
Gianni ha parlato più con te che con lui<br />
E’ chiaro che il tipo <strong>di</strong> relazione sintattica introdotta dal che (a <strong>di</strong>fferenza <strong>di</strong> quella introdotta dal<br />
<strong>di</strong> + secondo termine <strong>di</strong> paragone in dell’insegnante) è ortogonale rispetto alla <strong>di</strong>pendenza sintattica<br />
tra il sintagma preposizionale con te e il verbo parlare. Quale sia la natura della <strong>di</strong>pendenza<br />
introdotta dal che e come rappresentarla adeguatamente a livello <strong>di</strong> annotazione restano ancora oggi<br />
due problemi praticamente irrisolti. Il parallelo tra l’espressione più con te che con lui e sia con te<br />
che con lui sembrerebbe suggerire un trattamento della prima costruzione come una <strong>di</strong>pendenza<br />
simmetrica <strong>di</strong> tipo correlativo, da annotare come segue:<br />
obl(parlare,te.)<br />
obl(parlare,lui.)<br />
corr(te.< introsim =“più”, introdep=“con”>, lui.)<br />
dove “corr” in<strong>di</strong>ca appunto una relazione sintattica simmetrica <strong>di</strong> tipo correlativo. Questa soluzione<br />
ha una certa plausibilità dal punto <strong>di</strong> vista sintattico, che risulta corroborata dalla analogia tra le<br />
seguenti costruzioni comparative:<br />
Gianni ha mangiato più mele che arance<br />
Gianni ha mangiato tanto mele che/quanto arance<br />
Tuttavia, in un esempio come il seguente la natura simmetrica della correlazione risulta del tutto<br />
oscurata, e ancora una volta la soluzione proposta non sembra avere un grado sufficiente <strong>di</strong><br />
generalità:<br />
Gianni ha mangiato tante mele quante Maria<br />
74
Co<strong>di</strong>ce linea e Tema<br />
Quest’ultimo esempio evidenzia, a nostro avviso, la necessità <strong>di</strong> annotare in maniera <strong>di</strong>fferenziata<br />
gli introduttori del secondo termine <strong>di</strong> paragone. Accanto all’uso del <strong>di</strong> che definisce, nell’uso<br />
comparativo, una <strong>di</strong>pendenza sintattica fondamentalmente omogenea rispetto ad altre preposizioni,<br />
esistono altri introduttori del secondo termine <strong>di</strong> paragone, quali appunto che e quanto, che<br />
presentano una maggiore autonomia sul piano sintattico e semantico (quanto in particolare ha in<br />
molti casi un uso strettamente pronominale), e andrebbero quin<strong>di</strong> annotati, secondo noi, in maniera<br />
<strong>di</strong>stinta dal <strong>di</strong>. Detto questo, resta da capire quale tipo <strong>di</strong> relazione che e quanto stabiliscono con il<br />
secondo termine <strong>di</strong> paragone in senso stretto. Ma questo problema, a sua volta, non può che<br />
investire il trattamento delle ellissi in generale.<br />
Infine, la presenza <strong>di</strong> casi, alcune volte marginali, ma comunque <strong>di</strong> largo uso nel parlato quoti<strong>di</strong>ano,<br />
<strong>di</strong> costruzioni comparative fortemente ellittiche, sembra evidenziare ancora una volta la<br />
inadeguatezza delle nostre risorse espressive a livello <strong>di</strong> annotazione:<br />
?Gianni è più stanco che se avesse scalato una montagna.<br />
E’ probabilmente utile chiudere questa breve rassegna evidenziando la problematicità delle<br />
costruzioni comparative anche per schemi <strong>di</strong> annotazione che si basino sulla nozione <strong>di</strong> costituenza.<br />
Si noti, a questo proposito, che in una frase come quella che segue, l’ambito sintattico della<br />
comparazione copre una sequenza quale mangiato mele che non ha alcuno status sintattico<br />
plausibile dal punto <strong>di</strong> vista <strong>di</strong> un’analisi a costituenti:<br />
Gianni ha ascoltato più opere in vita sua che mangiato mele.<br />
5.3 Aspetti <strong>di</strong> annotazione con FunTAS<br />
L'annotazione funzionale della <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata effettuata manualmente con l'ausilio<br />
<strong>di</strong> FunTAS, il sotto-sistema <strong>di</strong> GesTALt <strong>di</strong> supporto all’annotazione sintattico-funzionale. La<br />
progettazione <strong>di</strong> FunTAS è avvenuta sulla base delle Specifiche Tecniche elaborate al termine della<br />
Linea 1.1, quando il processo <strong>di</strong> annotazione vero e proprio non era stato ancora avviato.<br />
La fase <strong>di</strong> annotazione vera e propria ha dunque costituito anche il primo momento <strong>di</strong><br />
validazione <strong>di</strong> FunTAS. Come è naturale, in questa fase sono emersi aspetti delle specifiche non<br />
coperti al livello dell'interfaccia del tool <strong>di</strong> annotazione e/o della struttura dati: ciò rendeva<br />
impossibile l'annotazione appropriata <strong>di</strong> certe costruzioni sintattiche. La correzione dei problemi<br />
emersi, al livello <strong>di</strong> FunTAS, è stata però effettuata solo in parte. Infatti, un'alterazione della<br />
struttura dei dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato avrebbe potuto<br />
compromettere la coerenza interna dei dati annotati della <strong>Treebank</strong>: questi casi sono stati quin<strong>di</strong><br />
gestiti me<strong>di</strong>ante l'adozione <strong>di</strong> co<strong>di</strong>fiche transitorie al livello della base <strong>di</strong> dati <strong>di</strong> GesTALt, che sono<br />
state riconvertite secondo quanto previsto dalle specifiche al livello dell'output in XML (per la<br />
rappresentazione XML dell’annotazione funzionale si rinvia all’Appen<strong>di</strong>ce 2).<br />
Nel corso del processo <strong>di</strong> annotazione, le specifiche iniziali sono state inoltre riviste ed integrate<br />
alla luce dell'evidenza linguistica emergente dal corpus. Anche in questo caso, non tutte le revisioni<br />
ed integrazioni apportate alle specifiche <strong>di</strong> annotazione hanno potuto essere assorbite al livello del<br />
tool <strong>di</strong> annotazione e della sottostante struttura dati: infatti, l'aggiornamento ha riguardato solo quei<br />
casi che non compromettevano la coerenza interna dei dati annotati. Di nuovo, gli altri casi sono<br />
stati gestiti me<strong>di</strong>ante soluzioni transitorie che permettevano la co<strong>di</strong>fica dell'informazione<br />
appropriata al livello del tool <strong>di</strong> annotazione e della relativa base <strong>di</strong> dati sfruttando tratti già presenti<br />
nella struttura dati.<br />
75
Co<strong>di</strong>ce linea e Tema<br />
Questa sezione documenta soluzioni <strong>di</strong> annotazione adottate transitoriamente, sia al livello delle<br />
relazioni funzionali (sezione 5.3.1), sia al livello della descrizione in tratti dei partecipanti alle<br />
relazioni (sezione 5.3.2) o dei valori loro assegnati (sezione 5.3.3).<br />
5.3.1 Una nuova relazione funzionale: CONCAT<br />
La relazione <strong>di</strong> concatenazione (concat) costituisce una relazione <strong>di</strong> basso livello che è stata<br />
introdotta per trattare casi in cui per l'annotazione funzionale sarebbe stato auspicabile il<br />
riconoscimento <strong>di</strong> una espressione polilessicale: ad esempio, espressioni in lingua straniera, oppure<br />
nomi propri italiani. Questa relazione mette in relazione <strong>di</strong> “concatenazione” i partecipanti cui viene<br />
applicata senza attribuirgli alcuna struttura interna. Casi tipici trattati con questo tipo <strong>di</strong> relazione<br />
sono rappresentati da Bank of China, Dolce & Gabbana, De Benedetti, La Repubblica così come<br />
tutte le denominazioni composte <strong>di</strong> persone, enti o <strong>di</strong>tte.<br />
La relazione <strong>di</strong> concatenazione viene stabilita a partire dal primo elemento che si incontra<br />
durante l’annotazione fino all’ultimo dell’espressione complessa, per esempio:<br />
Bank of China<br />
concat (bank, of)<br />
concat (of, China)<br />
Si noti che le relazioni <strong>di</strong> <strong>di</strong>pendenza che coinvolgono espressioni complesse co<strong>di</strong>ficate me<strong>di</strong>ante<br />
la relazione <strong>di</strong> concatenazione fanno riferimento al primo elemento dell'espressione. Quin<strong>di</strong>, in una<br />
frase del tipo La Bank of China ha deciso ... la relazione <strong>di</strong> soggetto viene stabilita tra decidere e<br />
bank.<br />
5.3.2 Annotazioni transitorie al livello della descrizione in tratti dei partecipanti<br />
Questa sezione illustra le annotazioni transitorie adottate per gestire le revisioni ed integrazioni<br />
delle specifiche che richiedevano l'inserimento <strong>di</strong> un nuovo tratto nella descrizione dei partecipanti<br />
alle relazioni funzionali. Considerate le <strong>di</strong>fficoltà derivanti dall'inserimento <strong>di</strong> un nuovo tratto nella<br />
struttura dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato, abbiamo optato per<br />
l'adozione – al livello <strong>di</strong> FunTAS/GesTALt - <strong>di</strong> co<strong>di</strong>fiche transitorie che sfruttano tratti già presenti<br />
nella struttura dati. In particolare, queste hanno riguardato gli attributi introduttore (sezione<br />
5.3.2.1) e <strong>di</strong>atesi (sezione 5.3.2.2). Si noti che quanto descritto in questa sezione vale soltanto per la<br />
base <strong>di</strong> dati sottostante a GesTALt, accessibile da FunTAS e ValTAS (si veda sezione 7); infatti,<br />
queste co<strong>di</strong>fiche transitorie sono state riviste e ristrutturate secondo quanto previsto dalle specifiche<br />
al livello dell'output in XML.<br />
5.3.2.1 L'attributo INTRODUTTORE<br />
Tra le relazioni funzionali, lo schema <strong>di</strong> annotazione <strong>di</strong>stingue relazioni <strong>di</strong> <strong>di</strong>pendenza e<br />
relazioni “simmetriche” (tipicamente relazioni <strong>di</strong> congiunzione e <strong>di</strong>sgiunzione). Per le relazioni <strong>di</strong><br />
<strong>di</strong>pendenza e per quelle simmetriche sono previsti due <strong>di</strong>versi tipi <strong>di</strong> attributo introduttore:<br />
a. l’attributo introdep è utilizzato nel caso <strong>di</strong> relazioni <strong>di</strong> <strong>di</strong>pendenza (esso fa parte della<br />
descrizione del <strong>di</strong>pendente, cfr sezione 5.1.1.1.2.1);<br />
76
Co<strong>di</strong>ce linea e Tema<br />
b. l'attributo introsim è usato per in<strong>di</strong>care l’introduttore dei partecipanti a una relazione<br />
simmetrica (esso può essere associato ad entrambi i partecipanti alla relazione, cfr sezione<br />
5.1.1.2.1).<br />
Questa <strong>di</strong>stinzione non si riflette ad oggi nella struttura dei dati al livello della base <strong>di</strong> dati <strong>di</strong><br />
GesTALt che prevede un unico tratto “introduttore”, associato al secondo elemento della relazione,<br />
sia essa <strong>di</strong> <strong>di</strong>pendenza o <strong>di</strong> tipo simmetrico.<br />
Quin<strong>di</strong>, quando la relazione funzionale è <strong>di</strong> tipo {<strong>di</strong>p | sogg | comp | mod | arg | pred | non-pred |<br />
ogg_d | ogg_i | obl} l'attributo introduttore è da interpretarsi come introdep. Si veda l'esempio che<br />
segue:<br />
dove la relazione obl deve essere interpretata come segue:<br />
obl (andare, cordata )<br />
Invece, quando la relazione funzionale è <strong>di</strong> tipo simmetrico, ovvero {cong | <strong>di</strong>sg}, l'attributo<br />
introduttore è da interpretarsi come introsim, come illustrato nell'esempio che segue:<br />
dove la relazione cong deve essere interpretata come segue:<br />
cong (chiudere, attestare )<br />
All'attributo introduttore possono essere assegnati anche valori complessi (separati da “_”) che<br />
debbono essere ri<strong>di</strong>stribuiti tra i vari partecipanti alla relazione. Si considerino i seguenti casi:<br />
77
Co<strong>di</strong>ce linea e Tema<br />
1. Strutture coor<strong>di</strong>nate del tipo sia … sia, né … né, tanto …quanto. La figura che segue illustra<br />
il trattamento <strong>di</strong> strutture coor<strong>di</strong>nate complesse:<br />
Come nei casi precedentemente illustrati, l'informazione relativa alle congiunzioni<br />
coor<strong>di</strong>nanti è riportata a questo livello come valore dell'attributo introduttore<br />
(appositamente marcato da @) associato al secondo elemento della struttura coor<strong>di</strong>nata: nel<br />
caso entrambi gli elementi della struttura coor<strong>di</strong>nata siano introdotti da una congiunzione,<br />
entrambe le congiunzioni sono riportate nella descrizione del secondo elemento separate da<br />
“_” come illustrato sopra. La relazione cong nell'esempio sopra deve essere interpretata<br />
come segue:<br />
cong (consumo., prenotazione.)<br />
2. Strutture coor<strong>di</strong>nate miste del tipo tanto a casa … quanto a scuola. In questi casi al livello <strong>di</strong><br />
FunTAS viene assegnato al tratto introduttore il valore complesso “@tanto_in_quanto_in”<br />
da interpretarsi come segue:<br />
cong (casa., scuola.)<br />
Il tratto introduttore viene anche usato in altri casi. Definitezza costituisce un tratto dello<br />
schema <strong>di</strong> annotazione il cui dominio <strong>di</strong> applicazione è risultato troppo ristretto, in quanto è stato<br />
associato nell'interfaccia <strong>di</strong> FunTAS soltanto alla descrizione dei <strong>di</strong>pendenti nominali con parte del<br />
<strong>di</strong>scorso uguale a “S” o “SP”. Nel corso dell'annotazione la specificazione <strong>di</strong> tale attributo è invece<br />
risultata necessaria anche in relazione a <strong>di</strong>pendenti <strong>di</strong> tipo pronominale (per pronomi <strong>di</strong> tipo il<br />
quale, il cui etc.), numerale, aggettivale, e verbale (per trattare casi <strong>di</strong> nominalizzazioni, il 1994_n il<br />
bello_agg oppure nel vedere_v); questo vale anche nel caso il <strong>di</strong>pendente sia costituito da una<br />
abbreviazione. In questi casi, l'informazione relativa alla definitezza è stata transitoriamente<br />
co<strong>di</strong>ficata al livello del tratto introduttore, marcando il valore come non appropriato (ovvero<br />
facendolo precedere da @), come illustrato nella figura che segue:<br />
78
Co<strong>di</strong>ce linea e Tema<br />
dove la definitezza del <strong>di</strong>pendente numerale è specificata attraverso il valore @il associato al<br />
tratto introduttore.<br />
5.3.2.2 L'attributo DIATESI<br />
Durante il processo <strong>di</strong> annotazione con FunTAS l’attributo <strong>di</strong>atesi è stato utilizzato non solo per<br />
in<strong>di</strong>care la <strong>di</strong>atesi del verbo interessato (attiva, passiva o me<strong>di</strong>a), come da specifiche, ma anche per<br />
marcare altre informazioni relative alla testa verbale. Per la co<strong>di</strong>fica <strong>di</strong> queste informazioni lo<br />
schema <strong>di</strong> annotazione è stato integrato da nuovi tratti, rispettivamente syn_form e reflex (se<br />
vedano le sezioni 5.1.1.1.2.2). Considerate le <strong>di</strong>fficoltà derivanti dall'inserimento <strong>di</strong> un nuovo tratto<br />
nella struttura dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato, abbiamo optato<br />
per una co<strong>di</strong>fica transitoria che sfruttava tratti già presenti nella struttura dati. Quin<strong>di</strong>, alla lista<br />
iniziale dei valori <strong>di</strong> <strong>di</strong>atesi sono stati aggiunti, lungo il corso dell’annotazione, anche i seguenti<br />
valori che sono stati marcati con # che ne in<strong>di</strong>ca la non <strong>di</strong>retta pertinenza rispetto all'attributo <strong>di</strong> cui<br />
costituiscono valore (si veda la sezione 4.1.2.3.1.1 del rapporto “Primo Prototipo” relativo alla<br />
Linea 1.2):<br />
1. #rifl: questo valore marca i verbi riflessivi propri;<br />
2. #rifl_app: questo valore marca i riflessivi apparenti;<br />
3. #ipron: questo valore marca la variante intransitiva <strong>di</strong> una parte dei verbi ergativi ed i verbi<br />
inerentemente riflessivi:<br />
4. #impers: questo valore marca la costruzione impersonale;<br />
5. #impers_si: questo valore marca la costruzione con “si” impersonale;<br />
6. #passivo_si: questo valore marca la costruzione con “si” passivante;<br />
7. #rifl_ci_si: questo valore marca la costruzione riflessiva con “si” impersonale (es. ci si<br />
lava);<br />
8. #rifl_app_ci_si: questo valore marca la costruzione riflessiva apparente con “si” impersonale<br />
(es. ci si lava le mani).<br />
Al livello dell'output in XML, i valori dell'attributo <strong>di</strong>atesi preceduti da # sono stati riassegnati<br />
agli attributi <strong>di</strong> <strong>di</strong>retta pertinenza (syn_form e/o reflex).<br />
5.3.3 Valori particolari per INTRODEP<br />
Questo punto riguarda l'annotazione <strong>di</strong> espressioni polilessicali <strong>di</strong> base non correttamente<br />
identificate al livello dell'annotazione morfo-sintattica. Quando queste espressioni polilessicali<br />
appaiono nella funzione <strong>di</strong> introduttore è stata adottata la seguente strategia <strong>di</strong> annotazione:<br />
Noi siamo andati sino a Roma<br />
obl (andare, Roma.)<br />
Questo tipo <strong>di</strong> annotazione permetterà, in una fase successiva <strong>di</strong> revisione della <strong>Treebank</strong>, il<br />
recupero <strong>di</strong> questi casi (spora<strong>di</strong>ci) e la relativa correzione. Purtroppo, tutte le correzioni che<br />
79
Co<strong>di</strong>ce linea e Tema<br />
richiedevano una rinumerazione delle parole al livello dell'input non potevano essere apportate dato<br />
che l'annotazione si è svolta in parallelo per i <strong>di</strong>versi livelli e questo avrebbe potuto inficiare<br />
l'integrità dei dati nella base <strong>di</strong> dati sottostante a GesTALt.<br />
6 Specifiche <strong>di</strong> annotazione per il livello semantico-lessicale<br />
Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL l’annotazione semantico-lessicale è consistita nell’assegnazione alle<br />
occorrenze <strong>di</strong> verbi, nomi e aggettivi <strong>di</strong>:<br />
i. un identificatore (numero) <strong>di</strong> senso nella risorsa lessicale <strong>di</strong> riferimento (IWN-Gen e/o<br />
EcoWN);<br />
ii.<br />
tratti, espressi in termini <strong>di</strong> coppie attributo/valore, <strong>di</strong> due tipi:<br />
• semantico, che convogliano informazioni semantico-lessicali (es. per contrad<strong>di</strong>stinguere<br />
gli i<strong>di</strong>omi, le metafore, ecc.);<br />
• ad uso dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per<br />
segnalare casi dubbi, ecc.).<br />
Le specifiche che seguono costituiscono l’ossatura portante dello schema <strong>di</strong> annotazione per<br />
questo livello. Esse raccolgono le revisioni ed integrazioni emerse nella fase <strong>di</strong> applicazione dello<br />
schema <strong>di</strong> annotazione al corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />
6.1 L’annotazione semantico-lessicale: tipologia degli elementi<br />
L’annotazione semantico-lessicale identifica delle unità <strong>di</strong> senso che possono corrispondere a:<br />
• singole parole ortografiche (un singolo Sostantivo, Verbo o Aggettivo);<br />
• due o più parole ortografiche nel caso <strong>di</strong> espressioni polilessicali (genericamente denotate<br />
in inglese come multi-word expressions) che compongono una unica unità <strong>di</strong> senso (es.<br />
composti, i<strong>di</strong>omi ecc.).<br />
Gli elementi annotati a livello semantico-lessicale sono <strong>di</strong> tre tipi:<br />
• USS (unità semantica semplice)<br />
• USC (unità semantica <strong>di</strong> tipo complesso)<br />
• UST (unità semantica <strong>di</strong> tipo titolo).<br />
L’elemento USS punta ad una singola parola, mentre l’elemento USC punta a più parole del testo<br />
<strong>di</strong> input, ovvero ad un’espressione polilessicale. Infine l’elemento UST può puntare sia ad una<br />
singola parola che a più parole a<strong>di</strong>acenti e serve per annotare titoli <strong>di</strong> libri, giornali, spettacoli ecc.<br />
Al contrario dell’elemento USS che può riferirsi solo a parole piene del testo (in particolare,<br />
sostantivi, verbi o aggettivi), sia USC che UST possono includere anche parole grammaticali (es.<br />
preposizioni, articoli, ecc.) facenti parte dell’espressione. Es.:<br />
• USC: mettere a ferro e fuoco<br />
80
Co<strong>di</strong>ce linea e Tema<br />
• UST: Il nome della rosa<br />
Le espressioni polilessicali si <strong>di</strong>stinguono in “continue” e “<strong>di</strong>scontinue”. Si parla <strong>di</strong> espressioni<br />
continue quando sono composte da più unità ortografiche a<strong>di</strong>acenti senza nessuna interruzione,<br />
mentre nel caso opposto si parla <strong>di</strong> espressioni <strong>di</strong>scontinue. Per questa ragione una unità <strong>di</strong> senso<br />
complessa (USC) può riferirsi a più parole ortografiche che risultano separate tra loro da una serie<br />
variabile <strong>di</strong> altre parole e, talvolta, ad<strong>di</strong>rittura invertite nell’or<strong>di</strong>ne come mostrano gli esempi<br />
seguenti:<br />
• <strong>di</strong>scontinuità: (es. mettere (tutto) per iscritto);<br />
• inversione: (es. ‘Traguar<strong>di</strong> ambiziosi, insomma, che la Consulta delle professioni non<br />
regolamentate, inse<strong>di</strong>atasi ieri a Villa Lubin, è comunque convinta <strong>di</strong> riuscire a tagliare’).<br />
Le espressioni continue sono in prevalenza nomi composti e in generale sequenze senza verbo,<br />
mentre quelle <strong>di</strong>scontinue possono essere i<strong>di</strong>omi e costruzioni con verbi supporto e più in generale<br />
espressioni che includono un verbo.<br />
Si noti che l’annotazione delle espressioni polilessicali non presuppone l’annotazione semanticolessicale<br />
dei suoi singoli componenti. Da un punto <strong>di</strong> vista linguistico ciò è giustificato dal fatto che<br />
tali espressioni non sono in molti casi composizionali semanticamente (o lo sono solo parzialmente)<br />
e talvolta appare <strong>di</strong>fficile o ad<strong>di</strong>rittura impossibile assegnare un senso, tra quelli attestati nella<br />
risorsa lessicale <strong>di</strong> riferimento, ai suoi componenti (es. si pensi all’aggettivo rosa nella sequenza<br />
cronaca rosa).<br />
6.2 L’annotazione semantico-lessicale: tratti descrittivi<br />
I seguenti tratti sono usati nella descrizione dei vari tipi <strong>di</strong> elementi semantici (USS, USC e UST):<br />
• dbref (database <strong>di</strong> riferimento)<br />
• ns (numero <strong>di</strong> senso)<br />
• lem (lemma)<br />
• pos (parte del <strong>di</strong>scorso)<br />
• alter(azione)<br />
• fig(urato)<br />
• np (nome proprio)<br />
• tipousc (tipo <strong>di</strong> unità semanticamente complessa)<br />
• tipolemma<br />
• tipot (tipo <strong>di</strong> titolo)<br />
• nota<br />
• comm<br />
Essi sono illustrati nelle sezioni che seguono.<br />
81
Co<strong>di</strong>ce linea e Tema<br />
6.2.1 dbref (database <strong>di</strong> riferimento)<br />
Il tratto dbref (database <strong>di</strong> riferimento) consente <strong>di</strong> specificare la risorsa lessicale <strong>di</strong> riferimento<br />
selezionata per l’annotazione, ovvero:<br />
• IWN-Gen, per il lessico generico;<br />
• EcoWN, per il lessico specialistico (finanziario).<br />
6.2.2 ns (numero <strong>di</strong> senso)<br />
Il tratto ns (numero <strong>di</strong> senso) consente, per ogni occorrenza annotata, <strong>di</strong> specificare il numero <strong>di</strong><br />
senso nella risorsa lessicale <strong>di</strong> riferimento (IWN-Gen/EcoWN) o l’eventuale assenza del senso. I<br />
suoi possibili valori sono:<br />
• un numero <strong>di</strong> senso;<br />
• due o più numeri <strong>di</strong> senso congiunti attraverso l’utilizzo dell’operatore logico <strong>di</strong><br />
congiunzione (S1&S2) nei casi in cui più <strong>di</strong> un senso <strong>di</strong> IWN-Gen/EcoWN si applichi al<br />
contesto specifico;<br />
• due sensi <strong>di</strong>sgiunti attraverso l’utilizzo dell’operatore logico <strong>di</strong> <strong>di</strong>sgiunzione (S1|S2) nei<br />
casi in cui il contesto non fornisca informazione sufficiente per poter decidere tra <strong>di</strong>versi<br />
sensi riportati in IWN-Gen/EcoWN;<br />
• il valore no_senso quando la risorsa lessicale <strong>di</strong> riferimento non registra il senso<br />
attestato nel contesto in corso <strong>di</strong> annotazione; nel caso <strong>di</strong> SI-TAL, si tratta generalmente<br />
<strong>di</strong> un valore provvisorio, che verrà sostituito dall’assegnazione definitiva una volta che<br />
la risorsa lessicale <strong>di</strong> riferimento sarà stata integrata con il senso mancante;<br />
• il valore no_lemma quando la risorsa lessicale <strong>di</strong> riferimento non registra il lemma<br />
dell’occorrenza in corso <strong>di</strong> annotazione; nel caso <strong>di</strong> SI-TAL, si tratta <strong>di</strong> un valore<br />
provvisorio, che verrà sostituito dall’assegnazione definitiva una volta che la risorsa<br />
lessicale <strong>di</strong> riferimento sarà stata integrata con l’informazione mancante;<br />
• il valore no viene assegnato per i lemmi <strong>di</strong> cui non è previsto l’inserimento in IWN-<br />
Gen/EcoWN. Ciò si verifica essenzialmente in tre casi, ovvero, con alcuni nomi propri<br />
(ad esempio, <strong>di</strong> persona), titoli in generale (<strong>di</strong> giornale o rivista, ecc.), parole straniere<br />
non entrate nell’uso corrente dell’italiano.<br />
6.2.3 lem (lemma)<br />
Il tratto lem (lemma) consente <strong>di</strong> specificare il lemma dell’occorrenza che si sta annotando a<br />
livello semantico-lessicale. Va precisato che tale informazione è già presente al livello dell’input<br />
all’annotazione semantico-lessicale ma deve, invece, essere sempre specificato per le espressioni<br />
polilessicali riconosciute ed annotate come tali a questo livello (USC) e per i titoli (UST).<br />
82
Co<strong>di</strong>ce linea e Tema<br />
6.2.4 pos (parte del <strong>di</strong>scorso)<br />
L’attributo pos (parte del <strong>di</strong>scorso) specifica la categoria morfo-sintattica dell’occorrenza che si<br />
sta annotando a livello semantico-lessicale. Tale informazione, che è già presente al livello<br />
dell’input all’annotazione semantico-lessicale, deve essere sempre specificata per le espressioni<br />
polilessicali riconosciute ed annotate come tali a questo livello (USC).<br />
6.2.5 alter(azione)<br />
L’attributo alter (alterazione) viene usato nella descrizione <strong>di</strong> USS nel caso in cui la parola in<br />
corso <strong>di</strong> annotazione sia un alterato o un aggettivo superlativo o comparativo: esso consente <strong>di</strong><br />
segnalare la presenza <strong>di</strong> un suffisso alterativo (e <strong>di</strong> specificarne il tipo) o del suffisso per la<br />
formazione del superlativo o la presenza <strong>di</strong> un comparativo. I suoi possibili valori sono:<br />
• <strong>di</strong>m per i <strong>di</strong>minutivi;<br />
• accr per gli accrescitivi;<br />
• <strong>di</strong>spr per i <strong>di</strong>spregiativi;<br />
• vezz per i vezzeggiativi;<br />
• sup per gli aggettivi superlativi;<br />
• compar per gli aggettivi comparativi;<br />
• alter valore sottospecificato per i casi <strong>di</strong>versi dai precedenti.<br />
Nel caso degli alterati, l’attributo alter può ricevere un valore unico (es. alter=<strong>di</strong>m) oppure una<br />
coppia <strong>di</strong> valori (nel caso in cui sia utilizzato più <strong>di</strong> un suffisso alterativo) che vanno specificati<br />
rispettando l’or<strong>di</strong>ne in cui sono combinati nell’occorrenza che si sta annotando (es. alter=<strong>di</strong>spr,accr<br />
per la parola omaccione). Il valore “alter” va utilizzato per i casi in cui tutti gli altri valori non sono<br />
applicabili.<br />
6.2.6 fig(urato)<br />
Si ricorre all’attributo fig (figurato) nel caso in cui si sia in presenza <strong>di</strong> un uso figurato. Si<br />
applica sia a unità <strong>di</strong> tipo USS che <strong>di</strong> tipo USC; in quest’ultimo caso, la specifica <strong>di</strong> uso figurato è<br />
limitata ai composti (es. mettere a fuoco il problema). I valori che possono essere assegnati a fig<br />
sono:<br />
• metaf per gli usi metaforici;<br />
• meton per gli usi metonimici;<br />
• fig valore sottospecificato per marcare casi <strong>di</strong> usi figurati <strong>di</strong>versi dai precedenti.<br />
83
Co<strong>di</strong>ce linea e Tema<br />
6.2.7 np (nome proprio)<br />
Quando si è in presenza <strong>di</strong> un nome proprio <strong>di</strong> persona, gruppo, luogo o prodotto, la descrizione<br />
<strong>di</strong> unità <strong>di</strong> tipo USS e USC include anche l’attributo np (nome proprio), che consente <strong>di</strong> ricondurre il<br />
nome proprio ad una specifica classe semantica <strong>di</strong> IWN (es. quella <strong>di</strong> “persona”).<br />
I valori <strong>di</strong> questo attributo previsti ad oggi sono:<br />
• pers per i nomi propri <strong>di</strong> persona;<br />
• grup per i nomi propri che si riferiscono a gruppo <strong>di</strong> persone;<br />
• luogo per i nomi propri <strong>di</strong> luogo;<br />
• man (manufatto) per i nomi propri <strong>di</strong> prodotti e manufatti in generale;<br />
• grup&luog per i nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente<br />
intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano<br />
d’Inghilterra);<br />
• np valore sottospecificato per in<strong>di</strong>care i casi <strong>di</strong>versi dai precedenti.<br />
E’ infine prevista la possibilità <strong>di</strong> avere una congiunzione/<strong>di</strong>sgiunzione <strong>di</strong> valori per i casi in cui<br />
non sia chiaro il referente del nome proprio.<br />
6.2.8 tipousc (tipo <strong>di</strong> unità semanticamente complessa)<br />
L’attributo tipousc (tipo <strong>di</strong> unità semanticamente complessa) consente <strong>di</strong> specificare quale tipo<br />
<strong>di</strong> espressione polilessicale sia in corso <strong>di</strong> annotazione (es. i<strong>di</strong>oma, composto o costruzione con<br />
verbo supporto).<br />
I suoi possibili valori sono:<br />
• i<strong>di</strong>oma per annotare le espressioni i<strong>di</strong>omatiche;<br />
• comp per annotare i composti;<br />
• vsup per annotare le espressioni a verbo supporto;<br />
• np per l’annotazione <strong>di</strong> nomi propri costituiti da espressioni polilessicali (es. Nuova Zelanda,<br />
Stati Uniti d’America, Giulio Andreotti, Real Madrid, ecc.);<br />
• tipousc per l’annotazione <strong>di</strong> eventuali formule <strong>di</strong> routine (es. per così <strong>di</strong>re, si fa per <strong>di</strong>re), ed<br />
altri casi non coperti dai valori precedenti.<br />
6.2.9 tipolemma<br />
L’attributo tipolemma convoglia informazione relativa al registro linguistico dell’unità in corso<br />
<strong>di</strong> annotazione: ad esempio, consente <strong>di</strong> specificare se l’unità semantica in corso <strong>di</strong> annotazione è<br />
costituita da una voce <strong>di</strong>alettale (marcata da “<strong>di</strong>al”) oppure da un neologismo (marcato con<br />
“neolog”). Questo tratto può rendere conto dell’assenza del termine descritto nella risorsa lessicale<br />
84
Co<strong>di</strong>ce linea e Tema<br />
<strong>di</strong> riferimento: si consideri come esempio il neologismo pi<strong>di</strong>essino, designante gli esponenti del<br />
partito PDS, abbastanza frequente nel corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />
6.2.10 tipot (tipo <strong>di</strong> titolo)<br />
L’attributo tipot (tipo <strong>di</strong> titolo) è specifico delle unità <strong>di</strong> tipo UST: esso specifica il tipo <strong>di</strong> entità<br />
alla quale il titolo si riferisce. I suoi possibili valori ad oggi sono:<br />
• semiotico per i titoli <strong>di</strong> un testo scritto (giornale, libro ecc.);<br />
• spettacolo per i nomi <strong>di</strong> spettacoli;<br />
• tipot per casi <strong>di</strong>versi dai precedenti;<br />
• indef (indefinito) quando l’informazione non può essere desunta dal contesto e l’annotatore<br />
non lo sa.<br />
6.2.11 Altri tratti che possono essere usati nella definizione <strong>di</strong> unità <strong>di</strong> senso<br />
Come segnalato in precedenza, l’annotazione a questo livello può anche includere tratti ad uso<br />
dell’annotatore, che convogliano informazioni sull’annotazione stessa (es. per segnalare casi dubbi,<br />
ecc.). Lo schema <strong>di</strong> annotazione ne prevede due: nota e comm(ento), illustrati nelle sezioni che<br />
seguono.<br />
6.2.11.1 nota<br />
L’attributo nota è usato per segnalare assegnazioni <strong>di</strong> senso dubbie. I suoi possibili valori sono:<br />
• sn_in<strong>di</strong>st (senso in<strong>di</strong>stinto) nel caso <strong>di</strong> dubbio <strong>di</strong> interpretazione dei sensi riportati nella<br />
risorsa lessicale <strong>di</strong> riferimento;<br />
• sn_inc (senso incerto) per segnalare la necessità <strong>di</strong> rivedere/ricontrollare l’annotazione.<br />
6.2.11.2 comm(ento)<br />
L’attributo comm (commento) è usato per inserire un commento ad uso dell’annotatore. Nel<br />
corso dell’annotazione si è largamente fatto uso <strong>di</strong> questo attributo per depositare informazioni utili<br />
non solo ai fini dell’annotazione in sé ma anche in relazione alle risorse lessicali utilizzate,<br />
soprattutto in termini <strong>di</strong> segnalazioni <strong>di</strong> lemmi mancanti, sensi mancanti, sensi dubbi oppure<br />
proposte <strong>di</strong> aggiornamento e integrazione della risorsa lessicale <strong>di</strong> riferimento, ad esempio,<br />
me<strong>di</strong>ante l’inserimento <strong>di</strong> espressioni polilessicali.<br />
La tabella che segue riporta le sigle usate nella compilazione <strong>di</strong> tale attributo nel corso<br />
dell’annotazione delle due partizioni della <strong>Treebank</strong>, quella bilanciata e quella finanziaria:<br />
Corpus<br />
Bilanciato<br />
Abbreviazione<br />
Corpus<br />
Finanziario<br />
Significato<br />
ML m.l manca lemma in IWN- per in<strong>di</strong>care lemmi mancanti<br />
Uso<br />
85
Co<strong>di</strong>ce linea e Tema<br />
Corpus<br />
Bilanciato<br />
Abbreviazione<br />
Corpus<br />
Finanziario<br />
Significato<br />
Gen/EcoWN<br />
MS m.s manca senso specifico in<br />
IWN-Gen/EcoWN<br />
MOR - manca la variante<br />
ortografica in IWN-<br />
Gen/EcoWN<br />
Uso<br />
per in<strong>di</strong>care sensi mancanti, ovvero il lemma in<br />
questione è previsto nella risorsa lessicale <strong>di</strong><br />
riferimento ma non secondo il senso attestato nel<br />
corpus<br />
per in<strong>di</strong>care varianti ortografiche mancanti, attestate<br />
nel corpus ma non comprese nel synset <strong>di</strong> IWN-<br />
Gen/EcoWN<br />
PSTR p. str parola straniera per segnalare una parola straniera che può essere<br />
presente o meno nella risorsa lessicale <strong>di</strong> riferimento.<br />
Per quanto sia prevista a livello morfo-sintattico<br />
l’etichetta "SW" ad in<strong>di</strong>care tali parole, poiché non<br />
tutte risultano marcate come tali nel file <strong>di</strong> input, si è<br />
deciso <strong>di</strong> segnalarle anche attraverso il campo<br />
‘Commento’.<br />
- acron acronimo per segnalare acronimi, sigle, abbreviazioni<br />
IN FASE DI<br />
PROPOSTA<br />
odv<br />
proposta <strong>di</strong> inserimento<br />
in corso <strong>di</strong> valutazione<br />
da parte dei lessicografi<br />
per segnalare una proposta <strong>di</strong> inserimento nel lessico<br />
<strong>di</strong> riferimento, soprattutto nel caso <strong>di</strong> espressioni<br />
polilessicali corrispondenti a unità semantiche<br />
complesse (o USC)<br />
- +IWN-Gen-Gen proposta <strong>di</strong> inserimento<br />
in IWN-Gen-Gen<br />
per segnalare una proposta <strong>di</strong> inserimento nel<br />
<strong>di</strong>zionario generico.<br />
- +EcoWN proposta <strong>di</strong> inserimento<br />
in EcoWN<br />
per segnalare una proposta <strong>di</strong> inserimento nel<br />
<strong>di</strong>zionario terminologico.<br />
- ? caso dubbio per segnalare casi dubbi per i quali l’annotazione è<br />
stata completata ma senza un grado <strong>di</strong> certezza<br />
elevato. In particolare, nel dubbio che la parola possa<br />
rappresentare un costituente <strong>di</strong> un’espressione<br />
polilessicale (es. capo/capo <strong>di</strong> stato), tale dubbio,<br />
laddove non sia stato sciolto interpellando<br />
<strong>di</strong>rettamente i co<strong>di</strong>ficatori della risorsa lessicale,<br />
viene espresso specificando l’espressione<br />
polilessicale (es. per il lemma capo comm= ?c. <strong>di</strong><br />
stato)<br />
SENSO<br />
INCERTO<br />
- senso incerto occorrenza a cui non si può assegnare un senso<br />
preciso della risorsa lessicale <strong>di</strong> riferimento per uno<br />
dei seguenti motivi: 1) è stata usata in modo del tutto<br />
personale dall’autore (ciò accade talvolta in contesti<br />
<strong>di</strong> critica letteraria o <strong>di</strong> argomento sportivo dove può<br />
essere fatto un uso libero del linguaggio); 2) non è<br />
comprensibile il senso dal contesto; 3) potrebbe<br />
essere (ma non si è sicuri) <strong>di</strong> un caso <strong>di</strong> senso<br />
mancante in IWN-Gen<br />
LOC - locuzione frasale etichetta molto generica che include un’ampia<br />
gamma <strong>di</strong> casi in cui un lemma sembra occorrere in<br />
una locuzione frasale (es. locuzioni avverbiali o<br />
preposizionali, o in sequenze che si presentano come<br />
possibili unità semantiche complesse)<br />
ROUTINE - routine formula segnala che il lemma occorre all’interno <strong>di</strong> una<br />
FORMULAE<br />
POS pos e. probabile errore <strong>di</strong><br />
assegnazione della<br />
categoria morfosintattica<br />
"routine formula"<br />
per segnalare errori <strong>di</strong> etichettatura morfo-sintattica<br />
presenti al livello dell'input dell'annotazione (es. es.<br />
pubblico=S invece <strong>di</strong> A)<br />
RIF - probabile errore <strong>di</strong> casi in cui è probabilmente necessaria una mo<strong>di</strong>fica<br />
86
Co<strong>di</strong>ce linea e Tema<br />
Corpus<br />
Bilanciato<br />
Abbreviazione<br />
Corpus<br />
Finanziario<br />
Significato<br />
assegnazione del lemma<br />
<strong>di</strong> verbi pronominali<br />
LEMMA - probabile errore <strong>di</strong><br />
assegnazione del lemma<br />
Uso<br />
del lemma <strong>di</strong> input per la presenza <strong>di</strong> una forma<br />
pronominale ecc. (es. inginocchiare invece <strong>di</strong><br />
inginocchiarsi).<br />
probabile errore (già presente nel file <strong>di</strong> input) <strong>di</strong><br />
assegnazione del lemma (es. stra<strong>di</strong>na invece <strong>di</strong><br />
strada).<br />
Si noti che la casistica segnalata attraverso questo attributo non è esattamente la stessa nei due<br />
corpora, anche in considerazione delle <strong>di</strong>verse problematiche che gli annotatori delle due partizioni<br />
si sono trovati ad affrontare. Vi è comunque una sovrapposizione significativa della casistica<br />
segnalata nei due corpora (bilanciato e finanziario).<br />
Parte dei problemi segnalati attraverso questo attributo sono legati alle modalità <strong>di</strong> annotazione<br />
seguite nel progetto; ad esempio, al fatto che il tool <strong>di</strong> annotazione SemTas (cfr sezione 7) non<br />
rende visibili alcune features dell’input dall’interfaccia <strong>di</strong> annotazione, oppure al fatto che<br />
l'annotazione funzionale - venendo sviluppata in parallelo - non è accessibile all'annotatore<br />
semantico. Pertanto, piuttosto che commettere un errore <strong>di</strong> assegnazione del senso, nell’ambito<br />
dell’annotazione del corpus generico si è preferito fare ampio uso dell’etichetta RIF. Invece,<br />
l’assegnazione delle etichette LOC e ROUTINE FORMULAE è stata preferita all’assegnazione <strong>di</strong><br />
un senso scelto in modo arbitrario tra quelli registrati nella risorsa lessicale <strong>di</strong> riferimento (per<br />
quanto l’uso <strong>di</strong> tali etichette non è stato applicato per tutte le USC create, in<strong>di</strong>pendentemente che<br />
fossero presenti o assenti dal lessico <strong>di</strong> riferimento).<br />
Si noti infine che le abbreviazioni riportate nella tabella sopra possono talora essere combinate<br />
(es. ‘odv; +EcoWN’ ad in<strong>di</strong>care una proposta <strong>di</strong> espressione polilessicale che si è ritenuta propria<br />
del dominio finanziario) assumendo così un significato più specifico.<br />
Si tenga inoltre presente che nell’ambito del corpus finanziario, per quanto non siano state<br />
previste le etichette LOC, RIF e LEMMA si è comunque preso nota delle informazioni ad esse<br />
relative nell’ottica <strong>di</strong> comunicarle ai lessicografi.<br />
Per entrambi i corpora, l’attributo comm è stato compilato al fine <strong>di</strong> pre<strong>di</strong>sporre il recupero <strong>di</strong><br />
casi dubbi attraverso il tool <strong>di</strong> browsing dei dati - ovvero ValTAS: es. recupera tutte le USC proposte<br />
ai lessicografi <strong>di</strong> IWN, ovvero con campo comm=”odv”. Il vantaggio è inteso sia dal punto <strong>di</strong> vista<br />
dell’annotazione (per eventuali estensioni e revisioni della <strong>Treebank</strong>) sia dal punto <strong>di</strong> vista della<br />
revisione e aggiornamento delle risorse lessicali (per eventuali estensioni e revisioni dei <strong>di</strong>zionari <strong>di</strong><br />
riferimento).<br />
Si tenga però conto che tutte le segnalazioni fatte nel campo “Commento“ sono relative alla<br />
versione delle risorse lessicali messe a <strong>di</strong>sposizione degli annotatori da parte del tema IWN. Non è<br />
quin<strong>di</strong> escluso che parte <strong>di</strong> tali segnalazioni siano <strong>di</strong>venute irrilevanti con una versione successiva<br />
della risorsa IWN poiché nel frattempo i lessicografi hanno mo<strong>di</strong>ficato/integrato la risorsa lessicale<br />
nei termini suggeriti dagli annotatori. Va inoltre detto che le USC e i sensi nuovi proposti non<br />
devono necessariamente essere inseriti nel lessico. L’esigenza <strong>di</strong> marcare certe sequenze nel corpus<br />
(es. metafore, usi figurati, nomi propri, ecc.), per renderle poi facilmente reperibili, può avere una<br />
valenza strettamente limitata all’annotazione semantico-lessicale, molto utile per futuri trattamenti<br />
delle espressioni polilessicali.<br />
87
Co<strong>di</strong>ce linea e Tema<br />
6.2.12 Tabella sinottica dei tratti per l’annotazione semantico-lessicale<br />
La tabella che segue riporta tutti gli attributi dell’annotazione semantico-lessicale,<br />
specificandone la tipologia <strong>di</strong> valori e la loro rilevanza nella descrizione dei <strong>di</strong>versi tipi <strong>di</strong> unità <strong>di</strong><br />
senso (ovvero, USS, USC e UST).<br />
Tratti USS USC UST<br />
alter= { <strong>di</strong>m, accr, <strong>di</strong>spr, vezz, sup, compar, alter }<br />
comm= stringa <strong>di</strong> commento (si veda la tabella nella<br />
sezione 6.2.11.2)<br />
X<br />
X X X<br />
dbref= { IWN-Gen, Eco-WN } X X<br />
fig= { metaf, meton, fig } X X<br />
lem= { lemma } X X X<br />
nota= { sn_in<strong>di</strong>st, sn_inc } X X<br />
np= { pers, grup, luogo, man, grup&luog, np } X X<br />
ns= { Sn, S1&S2, S1|S2, no_senso, no_lemma, no } X X<br />
pos= { parte del <strong>di</strong>scorso } X X<br />
tipolemma= { <strong>di</strong>al, neol } X X<br />
tipot= { semiotico, spettacolo, tipot }<br />
X<br />
tipousc= { i<strong>di</strong>oma, comp, vsup, np, tipousc }<br />
X<br />
6.3 Criteri <strong>di</strong> annotazione<br />
Nelle sezioni che seguono vengono forniti criteri guida per l’annotazione semantico-lessicale.<br />
Questi criteri sono stati testati ed integrati nella fase <strong>di</strong> verifica delle specifiche <strong>di</strong> annotazione e nel<br />
corso del processo <strong>di</strong> annotazione stesso.<br />
6.3.1 Alterati e aggettivi superlativi<br />
Con alterati ci riferiamo ai lemmi mo<strong>di</strong>ficati semanticamente con l’aggiunta <strong>di</strong> suffissi cosiddetti<br />
‘valutativi’ o ‘alterativi’ (Scalise, 1995). Sulla base del loro significato, i suffissi si possono<br />
<strong>di</strong>stinguere in:<br />
• <strong>di</strong>minutivo (-ino);<br />
• accrescitivo (-one);<br />
88
Co<strong>di</strong>ce linea e Tema<br />
• <strong>di</strong>spregiativo (-accio);<br />
• vezzeggiativo (-uccio, -etto).<br />
I suffissi alterativi possono essere utilizzati in modo cumulativo (es. passettino).<br />
Data la rilevanza semantica dell’alterazione e il fatto che spesso non c’è un esatto equivalente in<br />
altre lingue (es. tavolone = big table) appare opportuno marcarla in modo particolare a questo<br />
livello <strong>di</strong> annotazione, <strong>di</strong>stinguendo tra alterati lessicalizzati e alterati non lessicalizzati. I primi, che<br />
dovrebbero essere presenti nella risorsa lessicale <strong>di</strong> riferimento, ricevono il numero <strong>di</strong> senso<br />
corrispondente mentre i secon<strong>di</strong> sono ricondotti al lemma non alterato. In entrambi i casi gli alterati<br />
sono contrassegnati dall’attributo alter che in<strong>di</strong>ca la presenza del suffisso alterativo. Il tipo <strong>di</strong><br />
alterazione può essere specificato attraverso i seguenti possibili valori: “<strong>di</strong>m”, “accr”, “<strong>di</strong>sp”,<br />
“vezz”.<br />
Il caso della doppia alterazione, si marca con l’assegnazione <strong>di</strong> due valori successivi per or<strong>di</strong>ne<br />
<strong>di</strong> occorrenza (es. passettino -> alter=vezz,<strong>di</strong>m).<br />
La <strong>di</strong>stinzione tra alterato lessicalizzato e non lessicalizzato può essere fatta sulla base della sua<br />
presenza o meno in IWN-Gen/EcoWN o in altri <strong>di</strong>zionari dell’italiano assunti come punto <strong>di</strong><br />
riferimento.<br />
Diamo qui <strong>di</strong> seguito alcuni esempi tratti dal corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />
Tipi <strong>di</strong> alterazione non-lessicalizzato lessicalizzato<br />
(Dizionario <strong>di</strong> riferimento:<br />
Garzanti 1994)<br />
<strong>di</strong>m<br />
accr<br />
<strong>di</strong>sp<br />
vezz<br />
appartamentino<br />
bacino<br />
paesino<br />
Concertone<br />
filmetto<br />
gruppetto<br />
lavoretto<br />
pupazzetto<br />
vizietto<br />
<strong>di</strong>ttatorello<br />
cappellino<br />
finestrino<br />
palloncino<br />
colpaccio<br />
pozzetto<br />
Per quanto riguarda gli aggettivi, a livello semantico-lessicale appare opportuno segnalare la<br />
presenza del suffisso per la formazione del superlativo (es. important-issimo), sia per le mo<strong>di</strong>fiche<br />
che apporta al senso del lemma sia perché talvolta non esiste un equivalente in altre lingue (es.<br />
importantissimo = very important). Pertanto gli aggettivi sono ricondotti al lemma <strong>di</strong> base in IWN<br />
(es. importante) e ricevono la specificazione del tratto alter al quale viene assegnato il valore “sup”.<br />
Il valore “compar” è invece assegnato come valore <strong>di</strong> alter nel caso degli aggettivi comparativi.<br />
6.3.2 Nomi Propri<br />
L’annotazione dei nomi propri consiste nella specificazione dei seguenti tratti: dbref, lem, ns e<br />
np. Il numero <strong>di</strong> senso (ns) viene specificato solo nel caso in cui il nome proprio figuri nel lessico<br />
89
Co<strong>di</strong>ce linea e Tema<br />
generico o specialistico della risorsa lessicale <strong>di</strong> riferimento; negli altri casi il nome proprio non<br />
riceve alcuna specificazione relativa al numero <strong>di</strong> senso (ovvero a ns viene assegnato il valore<br />
“no”).<br />
Ai nomi propri viene sempre assegnato un tratto specifico (np) che ne descrive il tipo semantico<br />
corrispondente. Le seguenti classi semantiche sono previste come possibili valori dell’attributo np :<br />
- pers: per nomi propri <strong>di</strong> persone (es. Giulio_Andreotti);<br />
- grup: per nomi propri <strong>di</strong> gruppo <strong>di</strong> persone (es. Telecom, Monte<strong>di</strong>son);<br />
- luogo: per nomi propri <strong>di</strong> località (es. Milano);<br />
- man: per nomi propri <strong>di</strong> prodotti e manufatti in genere (es. Macintosh, Windows);<br />
- grup&luog: per i nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente<br />
intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano<br />
d’Inghilterra);<br />
- np: per tutti gli altri casi.<br />
Da notare che all’attributo np possono essere assegnati più valori (<strong>di</strong>sgiunti/congiunti) per i casi<br />
in cui non sia possibile operare una scelta. Tale tratto consente un facile recupero dal corpus<br />
annotato dei nomi propri per classi <strong>di</strong> referenti e ne rende uniforme il trattamento a livello <strong>di</strong><br />
annotazione semantico-lessicale in<strong>di</strong>pendentemente dalla loro presenza o meno nella risorsa<br />
lessicale <strong>di</strong> riferimento.<br />
Casi particolari:<br />
- i nomi propri che si riferiscono a regioni, nazioni, paesi, città in generale sono descritti come<br />
luoghi (np=luog);<br />
- i nomi propri in<strong>di</strong>canti montagne, fiumi, laghi ricevono una decrizione più generica (np=np)<br />
giacché non in<strong>di</strong>cano necessariamente un luogo (es. il Lago <strong>di</strong> Garda è il lago più grande<br />
d’Ítalia);<br />
- nei casi del tipo «re/ sovrano <strong>di</strong> ‘nome proprio geografico’» (es.: regina d’Inghilterra) a<br />
quest’ultimo è assegnato il valore “grup&luog” perché ragionevolmente in<strong>di</strong>ca il paese/nazione<br />
sia in senso <strong>di</strong> luogo che <strong>di</strong> organizzazione;<br />
- nei casi invece del tipo «via / piazza / palazzo + nome proprio» (es. via XXV aprile) si adotta<br />
il seguente metodo: ‘via’ e ‘piazza’ sono annotati separatamente e il nome proprio che segue è<br />
descritto in modo generico (come np=np). Per quanto riguarda palazzo, si <strong>di</strong>stinguono i casi in<br />
cui fa parte del nome proprio (es.: Palazzo <strong>di</strong> Giustizia, Palazzo Pitti, Palazzo Madama) da<br />
quelli in cui può essere annotato separatamente (es. il palazzo del Quirinale)<br />
6.3.3 Parole Straniere<br />
Le parole straniere sono <strong>di</strong>stinte in tre classi:<br />
1. quelle che sono entrate nell’uso corrente della lingua italiana (es. leader, import, export);<br />
90
Co<strong>di</strong>ce linea e Tema<br />
2. quelle che non sono entrate nell’uso corrente ma hanno una applicazione e <strong>di</strong>ffusione in<br />
ambito tecnico-specialistico (es. rating, tax, trend);<br />
3. quelle che non sono usate correntemente nella lingua italiana. Esempi dal corpus della<br />
<strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />
• imboccare nell’ 85 la via della «politique d’abord» ma quella <strong>di</strong> un’ integrazione..<br />
• degli ortolani) occorre fare dell’ «économie d’abord», abolire i controlli doganali..,<br />
• una maggioranza capace <strong>di</strong> decidere cosa vada mo<strong>di</strong>ficato d’abord nella «storia<br />
materiale»…<br />
Le parole appartenenti alla prima classe hanno maggiore probabilità <strong>di</strong> essere attestate nella<br />
risorsa lessicale <strong>di</strong> riferimento e dunque è possibile fare riferimento al numero <strong>di</strong> senso loro<br />
assegnato; in caso contrario, viene segnalata l’assenza del lemma.<br />
La seconda classe fa riferimento a partizioni specialistiche del lessico (ovvero relative a un dato<br />
dominio semantico); come nel caso precedente, se attestate nel lessico l’annotazione fa riferimento<br />
al numero <strong>di</strong> senso della partizione specialistica <strong>di</strong> IWN (ovvero EcoWN); in caso contrario, viene<br />
segnalata la loro assenza ai lessicografi della partizione specialistica per valutarne l’eventuale<br />
integrazione nel lessico. Per maggiori dettagli sull’annotazione della terminologia specialistica si<br />
rinvia alla sezione sulla terminologia (sezione 6.3.7).<br />
Il terzo tipo <strong>di</strong> parola straniera non è attestata nella risorsa lessicale <strong>di</strong> riferimento e rimane<br />
genericamente etichettata come parola straniera, e non riceve dunque l’assegnazione <strong>di</strong> alcun<br />
numero <strong>di</strong> senso.<br />
Anche se l’informazione relativa a ‘parola straniera’ è già inclusa nell’annotazione morfosintattica<br />
usata come input all’annotazione semantico-lessicale, a questo livello <strong>di</strong> annotazione tutte<br />
le parole straniere ricevono una marca specifica per facilitarne il recupero ai fini dell’annotazione<br />
(nel campo comm vengono specificati i valori PSTR/ p. str, si veda la tabella nella sezione<br />
6.2.11.2).<br />
6.3.4 Criteri <strong>di</strong> identificazione e <strong>di</strong> annotazione delle USC<br />
La categoria delle unità semanticamente complesse include espressioni polilessicali, ovvero<br />
espressioni i<strong>di</strong>omatiche più o meno composizionali, i composti (<strong>di</strong> cui parte sono <strong>di</strong> ambito tecnico<br />
specialistico) e le espressioni con verbo supporto.<br />
Dato che nella <strong>Treebank</strong> <strong>di</strong> SI-TAL l’annotazione semantico-lessicale è circoscritta alle classi<br />
dei sostantivi, dei verbi e degli aggettivi, <strong>di</strong> seguito vengono forniti criteri <strong>di</strong> identificazione e<br />
annotazione <strong>di</strong> USC la cui testa appartiene alle stesse categorie morfo-sintattiche. Quin<strong>di</strong> sono<br />
escluse dal processo <strong>di</strong> annotazione locuzioni preposizionali del tipo per conto <strong>di</strong> oppure locuzioni<br />
avverbiali del tipo in fretta e furia, che non vengono annotate né al livello dei singoli componenti né<br />
dell’intera sequenza.<br />
In quanto segue, dopo aver elencato le motivazioni che giustificano l’annotazione delle USC,<br />
forniremo criteri per la loro identificazione nel testo e conseguenti modalità <strong>di</strong> annotazione.<br />
6.3.4.1 Perché l’annotazione delle USC<br />
Elenchiamo qui <strong>di</strong> seguito alcune delle ragioni che giustificano l’annotazione delle USC.<br />
91
Co<strong>di</strong>ce linea e Tema<br />
La loro parziale o totale non composizionalità semantica fa sì che:<br />
1. il significato dell’intera sequenza può non essere ricavabile a partire dal significato dei singoli<br />
componenti lessicali: es. entrare (move) in possesso (stative possession) ≠ entrare in possesso<br />
(change possession);<br />
2. le restrizioni <strong>di</strong> selezione dell’intera sequenza possono essere molto specifiche: es. tagliare i<br />
ponti / il cordone ombelicale richiede un obliquo introdotto da con <strong>di</strong> tipo ‘umano / istituzione /<br />
gruppo umano’;<br />
3. i sinonimi (che compariranno nel corrispondente “synset” <strong>di</strong> IWN) possono essere molto<br />
specifici, <strong>di</strong>versi da quelli dei singoli componenti: tagliare la corda / scappare / fuggire;<br />
Dal punto <strong>di</strong> vista dell’utilizzo futuro del corpus annotato, si osserva che:<br />
1. nella prospettiva <strong>di</strong> uso del corpus nell’ambito <strong>di</strong> operazioni <strong>di</strong> recupero <strong>di</strong> informazione (IR),<br />
l’annotazione delle unità semanticamente complesse può rendere più corrette e significative le<br />
informazioni estratte: es. una ricerca che ha come oggetto il recupero <strong>di</strong> documenti riguardanti<br />
l’arredamento, deve poter escludere contesti del tipo organizzare una tavola rotonda in quanto<br />
non rilevanti rispetto all’interrogazione;<br />
2. nella prospettiva <strong>di</strong> uso del corpus nell’ambito della traduzione automatica (MT) può essere<br />
utile l’identificazione <strong>di</strong> unità semanticamente complesse che hanno in molti casi equivalenti in<br />
altre lingue ma, talvolta, con variazioni sia strutturali sia lessicali (es. toccare ferro = toucher<br />
du bois);<br />
3. nella prospettiva <strong>di</strong> creazione o estensione <strong>di</strong> lessici computazionali può essere utile consentire<br />
l’identificazione <strong>di</strong> queste espressioni e lo stu<strong>di</strong>o del grado <strong>di</strong> variabilità e morfologica e<br />
sintattica che le caratterizzano (es. possibilità <strong>di</strong> inserire mo<strong>di</strong>ficatori, ecc.).<br />
Infine dal punto <strong>di</strong> vista pratico, si nota che:<br />
1. talvolta appare più <strong>di</strong>fficile annotare le singole unità lessicali che l’intera sequenza (es ferro da<br />
stiro/ calce viva/ a chiare lettere/ romanzo giallo). L’annotazione delle singole componenti <strong>di</strong><br />
una espressione polilessicale richiederebbe una interpretazione del senso dei singoli componenti<br />
e del legame che intercorre tra loro che spesso appare totalmente arbitraria. Si pensi inoltre<br />
all’annotazione delle espressioni con verbo supporto, dove il contributo semantico del verbo<br />
supporto è, in realtà, limitato (“leggero”): es. fare paura.<br />
6.3.4.2 Problemi nell’identificazione ed interpretazione delle USC<br />
L’identificazione e interpretazione delle USC può risultare <strong>di</strong>fficile a causa dell’assenza <strong>di</strong> criteri<br />
<strong>di</strong> identificazione certi e univoci. I criteri forniti dalla letteratura che mirano a verificare il grado <strong>di</strong><br />
fissità sintattica e semantica <strong>di</strong> queste espressioni non sempre sono applicabili. Anche le espressioni<br />
i<strong>di</strong>omatiche che non sembrano decisamente soggette a variazioni talvolta sono attestate nel corpus<br />
in <strong>di</strong>verse varianti (“it has more recently been pointed out that i<strong>di</strong>oms in use are prone to massive<br />
variation”, Sinclair, 1996): es. tagliare le ultime ali a un paese.<br />
Il riconoscimento e l’interpretazione delle USC rimane un punto problematico almeno in alcuni<br />
casi e per molti aspetti soggettivo. Per questa ragione, appare opportuno ridurre il margine <strong>di</strong><br />
soggettività nelle scelte dell’annotatore e giungere a decisioni sicure e non controverse.<br />
92
Co<strong>di</strong>ce linea e Tema<br />
6.3.4.2.1 Identificazione degli elementi costitutivi delle USC<br />
Da un punto <strong>di</strong> vista pratico, cioè della loro annotazione a livello semantico-lessicale, le USC<br />
pongono soprattutto due problemi:<br />
1. quali elementi devono essere considerati parte dell’espressione semanticamente complessa?<br />
In altri termini, dove incomincia e finisce l’espressione? Per esempio, essere la chiave <strong>di</strong><br />
volta o chiave <strong>di</strong> volta o chiave volta o essere chiave volta ecc.<br />
2. come gestire i casi <strong>di</strong> <strong>di</strong>scontinuità delle USC?<br />
Esaminiamo in dettaglio i due punti.<br />
1. le USC sono caratterizzate da una certa “fissità” lessicale, nel senso che i lemmi che le<br />
compongono sono fissi o quantomeno commutabili con pochi altri (si pensi ad esempio alle<br />
espressioni con verbo supporto). Per questa ragione appare opportuno considerare parte<br />
dell’espressione tutti gli elementi invariabili o limitatamente variabili, incluse le parole<br />
grammaticali che tuttavia sono fondamentali per la comprensione dell’espressione. Inoltre<br />
l’esclusione del verbo rende talvolta non significativa l’intera sequenza (es. la chiave <strong>di</strong><br />
volta);<br />
2. per espressione <strong>di</strong>scontinua si intende il caso in cui i suoi singoli componenti non sono<br />
a<strong>di</strong>acenti. Le espressioni che sono soggette a <strong>di</strong>scontinuità o inversione sono essenzialmente<br />
quelle che includono il verbo. Si possono avere i seguenti casi <strong>di</strong> <strong>di</strong>scontinuità illustrati con<br />
esempi tratti dal corpus <strong>di</strong> SI-TAL:<br />
1. inserimento <strong>di</strong> un mo<strong>di</strong>ficatore dell’intera frase:<br />
tenere il più possibile sulla corda qualcuno<br />
2. inserimento <strong>di</strong> un pronome e comunque <strong>di</strong> un elemento sottocategorizzato<br />
dall’espressione stessa:<br />
mettere tutto per iscritto<br />
metterne a punto<br />
3. inserimento <strong>di</strong> un mo<strong>di</strong>ficatore <strong>di</strong> un componente dell’espressione semanticamente<br />
complessa:<br />
fare qualche minuto <strong>di</strong> esercizi<br />
fare ben pochi passi avanti<br />
avere maggiore peso<br />
mettere i loro puntini sulla i<br />
tenere in maggiore considerazione<br />
4. inversione e <strong>di</strong>scontinuità:<br />
Traguar<strong>di</strong> ambiziosi, insomma, che la Consulta delle professioni non regolamentate,<br />
inse<strong>di</strong>atasi ieri a Villa Lubin, è comunque convinta <strong>di</strong> riuscire a tagliare<br />
Nei casi 1. e 2. l’elemento inserito (mo<strong>di</strong>ficatore della frase o pronome) è esterno all’espressione<br />
semanticamente complessa. Es.:<br />
93
Co<strong>di</strong>ce linea e Tema<br />
mettere tutto per iscritto<br />
dove le parole evidenziate in grassetto sono da considerarsi gli elementi costituenti la USC in<br />
corso <strong>di</strong> definizione: in questo caso, USC = mettere per iscritto. Il lemma ad esso associato sarà la<br />
forma standard <strong>di</strong> riferimento selezionata, ad esempio mettere_per_iscritto.<br />
Nel caso 3., eventuali mo<strong>di</strong>ficatori dei componenti dell’espressione (che dovrebbero essere tanto<br />
più rari quanto più l’espressione è semanticamente non composizionale) sono considerati parte<br />
dell’espressione stessa come esemplificato <strong>di</strong> seguito:<br />
Eppure i vari gruppi si sono affrettati a mettere i loro “puntini sulle i” del documento…<br />
dove le parole mettere i loro puntini sulle i sono da considerarsi come facenti parte della USC. In<br />
ogni caso, il lemma attribuito a questa occorrenza non includerà gli eventuali mo<strong>di</strong>ficatori, ma farà<br />
riferimento alla forma che è stata selezionata come standard (per esempio, nel caso precedente<br />
mettere_i_puntini_sulle_i); in questo modo si creano i presupposti per il recupero <strong>di</strong> tutte le varianti<br />
<strong>di</strong> una stessa USC attestate nel corpus annotato (ad esempio con e senza mo<strong>di</strong>ficatori).<br />
Nel quarto caso, quello dell’inversione, i costituenti della USC sono marcati nel testo come segue:<br />
Traguar<strong>di</strong> ambiziosi, insomma, che la Consulta delle professioni non regolamentate, inse<strong>di</strong>atasi<br />
ieri a Villa Lubin, è comunque convinta <strong>di</strong> riuscire a tagliare<br />
Al livello del lemma, invece, l’or<strong>di</strong>ne standard della sequenza è ricostruito; quin<strong>di</strong> nel caso<br />
precedente il lemma sarà presumibilmente tagliare_traguardo.<br />
Si noti che il lemma dell’espressione può contenere eventuali preposizioni, articoli ecc. che<br />
fanno parte dell’espressione stessa (es. essere la chiave <strong>di</strong> volta).<br />
6.3.4.3 Espressioni i<strong>di</strong>omatiche e composti<br />
Con ‘espressione i<strong>di</strong>omatica’ inten<strong>di</strong>amo tutte le espressioni polilessicali (Casadei, 1996:13) che<br />
da un punto <strong>di</strong> vista sintattico e soprattutto lessicale sono caratterizzate da una certa fissità,<br />
contrariamente alla frase libera in cui ogni posizione è commutabile con qualunque elemento che<br />
abbia le caratteristiche categoriali e semantiche (restrizioni <strong>di</strong> selezione) richieste.<br />
Il loro significato non è composizionale (es. tagliare la testa al toro) o lo è solo parzialmente (es.<br />
mettere a ferro e fuoco, mettere piede) e comunque si è fissato, cristallizzato nel tempo.<br />
La fissità lessicale (o limitata variabilità) e la parziale o totale non composizionalità semantica<br />
sono una caratteristica anche dei composti.<br />
Diamo qui <strong>di</strong> seguito alcuni esempi tratti dal corpus <strong>di</strong> SI-TAL che illustrano la tipologia <strong>di</strong><br />
espressioni che ci troveremo ad annotare e sono esemplificative dei livelli <strong>di</strong>versi <strong>di</strong><br />
composizionalità semantica:<br />
Espressioni I<strong>di</strong>omatiche<br />
essere la chiave <strong>di</strong> volta<br />
mettere troppa carne al fuoco<br />
mettere a ferro e fuoco<br />
soffiare sul fuoco<br />
gettare benzina sul fuoco<br />
Composti<br />
agente segreto<br />
agente <strong>di</strong> frontiera<br />
braccio <strong>di</strong> ferro<br />
conflitto a fuoco<br />
arma da fuoco<br />
94
Co<strong>di</strong>ce linea e Tema<br />
Espressioni I<strong>di</strong>omatiche<br />
mettere via<br />
andare in gol<br />
lasciare andare<br />
avere le carte in regola<br />
fare da pendant<br />
fare da cuscinetto<br />
fare da contrappeso<br />
avere un bel da fare<br />
darsi da fare<br />
fare a meno <strong>di</strong> (qualcosa)<br />
fare il gioco <strong>di</strong> (qualcuno)<br />
tagliare il respiro (mozzare il fiato)<br />
tenere buono (qualcuno)<br />
tenere d’occhio (qualcuno)<br />
mettere piede<br />
mettere in pericolo<br />
andare in onda<br />
andare d’accordo<br />
essere nel giusto<br />
essere al <strong>di</strong> sopra <strong>di</strong> ogni sospetto<br />
essere sopra le parti<br />
Composti<br />
lingua <strong>di</strong> fuoco<br />
vigile del fuoco<br />
6.3.4.3.1 Criteri <strong>di</strong> identificazione delle espressioni i<strong>di</strong>omatiche e dei composti<br />
In questa sezione forniamo una batteria <strong>di</strong> test per l’identificazione delle espressioni i<strong>di</strong>omatiche<br />
e dei composti. Va tuttavia premesso che non sempre tali test sono affidabili e applicabili poiché la<br />
struttura interna e il grado <strong>di</strong> non composizionalità semantica delle espressioni semanticamente<br />
complesse è molto variabile.<br />
Va inoltre ricordato che talvolta i criteri che possono guidare il riconoscimento <strong>di</strong> una USC<br />
possono essere <strong>di</strong> natura più generale e non semplicemente dei test <strong>di</strong> tipo sintattico/semantico<br />
(specialmente per quanto riguarda il corpus specialistico). Per esempio, la frequenza accertata <strong>di</strong><br />
una certa sequenza (es. stato membro) o l’esistenza e l’utilizzo contemporaneo <strong>di</strong> un acronimo e <strong>di</strong><br />
una forma sciolta per lo stesso referente (es. consiglio <strong>di</strong> amministrazione / CDA) possono indurre<br />
all’identificazione <strong>di</strong> USC.<br />
I test elencati qui <strong>di</strong> seguito, che sono stati ricavati dalla letteratura corrente (Danlos, 1981, 1988,<br />
Ten Hacken 1991, Gross, 1985, 1986, 1988) e adattati all’italiano, sono <strong>di</strong>stinti in due gruppi: 1)<br />
quelli per sequenze senza verbo (trattati nella sezione 6.3.4.3.1.1) e 2) quelli per sequenze con verbo<br />
(trattati nella sezione 6.3.4.3.1.2).<br />
6.3.4.3.1.1 Sequenze senza verbo<br />
La struttura sintattica interna dei composti può essere molto varia: sostantivo-preposizionesostantivo<br />
(S E S), sostantivo-sostantivo (S S), aggettivo-sostantivo (A S), ecc. I test variano a<br />
seconda della struttura interna, come esemplificato in quanto segue.<br />
• Costruzione Pre<strong>di</strong>cativa: la costruzione pre<strong>di</strong>cativa è possibile solo con sequenze or<strong>di</strong>narie <strong>di</strong><br />
sostantivo-aggettivo (S A) ma non con composti che hanno questa struttura. Es.:<br />
95
Co<strong>di</strong>ce linea e Tema<br />
tavola rotonda (=conferenza, incontro) > *la tavola è rotonda<br />
• Nominalizzazione: la nominalizzazione non è possibile con i composti aventi la struttura S A.<br />
Es.:<br />
*la roton<strong>di</strong>tà della tavola<br />
• Mo<strong>di</strong>ficazione: la mo<strong>di</strong>ficazione tramite l’inserimento <strong>di</strong> avverbi e le costruzioni superlative e<br />
comparative non sono possibili con i composti. Es.:<br />
ferro da stiro > *un ferro nuovo da stiro<br />
tavola rotonda (=conferenza, incontro) > *la tavola più rotonda,<br />
*una tavola perfettamente rotonda<br />
• Coor<strong>di</strong>nazione: l’aggettivo che fa parte <strong>di</strong> una parola composta non può essere coor<strong>di</strong>nato con<br />
altri aggettivi anche se ciò è possibile con sequenze or<strong>di</strong>narie. Es.:<br />
* la tavola rotonda e larga<br />
• Omissione: l’aggettivo <strong>di</strong> un nome composto è obbligatorio (pertanto non può essere né<br />
sostituito né omesso) e talvolta può essere usato da solo. Es.:<br />
*tavola circolare<br />
cronaca rosa/ nera/ *gialla<br />
*ho organizzato una tavola (rotonda)<br />
ho letto un (romanzo) giallo<br />
A questo primo insieme <strong>di</strong> test si affiancano dei criteri più deboli, riportati <strong>di</strong> seguito:<br />
• Flessione: va ricordato che l’esistenza <strong>di</strong> un composto ci può essere segnalata da irregolarità<br />
morfo-sintattiche (per esempio, a livello della flessione). Infatti, mentre alcuni composti<br />
presentano regolarmente sia la forma singolare sia quella plurale (es. tavole rotonde) altri hanno<br />
solo una forma al plurale (effetti speciali) o al singolare (la mano nera).<br />
• Restrizioni <strong>di</strong> co-occorrenza lessicale: alcuni composti sono caratterizzati da una certa<br />
variabilità lessicale che tuttavia rimane sempre limitata. Infatti solo un aggettivo o un ristretto<br />
numero e tipo <strong>di</strong> aggettivi si combina con un nome per formare un composto (es. alta/bassa<br />
marea).<br />
6.3.4.3.1.2 Sequenze con il verbo<br />
• Inserzione: non è ammesso l’inserimento <strong>di</strong> mo<strong>di</strong>ficatori dei singoli componenti lessicali <strong>di</strong> una<br />
espressione i<strong>di</strong>omatica, mentre è normalmente consentito l’inserimento <strong>di</strong> mo<strong>di</strong>ficatori<br />
dell’intera sequenza. Es.:<br />
*tagliare la lunga corda<br />
tagliare velocemente la corda<br />
• Estrazione: l’estrazione <strong>di</strong> un componente lessicale <strong>di</strong> una espressione i<strong>di</strong>omatica per mezzo <strong>di</strong><br />
particolari strutture sintattiche non è solitamente possibile. Es.:<br />
- costruzione passiva: *la corda è stata tagliata da Leo<br />
96
Co<strong>di</strong>ce linea e Tema<br />
- “clefting”: *è la corda che è stata tagliata da Leo<br />
- topicalizzazione: *LA CORDA è stata tagliata da Leo<br />
- costruzione relativa: *la corda che è stata tagliata da Leo<br />
• Pronominalizzazione: la sostituzione <strong>di</strong> uno o più elementi <strong>di</strong> una espressione i<strong>di</strong>omatica con<br />
un pronome non è solitamente consentita. Es.:<br />
ha tagliato la corda dal carcere > *l’ha tagliata dal carcere<br />
• Mo<strong>di</strong>ficazione: i componenti lessicali <strong>di</strong> una espressione i<strong>di</strong>omatica non possono essere<br />
solitamente flessi o sostituiti. Es.:<br />
*tagliare le corde/la fune<br />
Le espressioni i<strong>di</strong>omatiche e i composti sono annotate come USC la cui descrizione include<br />
obbligatoriamente i tratti lem e tipousc: quest’ultimo permette <strong>di</strong> <strong>di</strong>stinguere tra espressioni<br />
i<strong>di</strong>omatiche (contrassegnate dal valore “i<strong>di</strong>oma”) e composti (marcati dal valore “comp”). Nel caso<br />
in cui l’espressione i<strong>di</strong>omatica o il composto siano inclusi nella risorsa lessicale <strong>di</strong> riferimento,<br />
l’annotazione include anche la specificazione dei tratti dbref e ns.<br />
6.3.4.4 Espressioni con verbo supporto<br />
Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL le espressioni con verbo supporto (da qui in poi VSUP) sono annotate<br />
in termini <strong>di</strong> USC. Una USC <strong>di</strong> tipo VSUP è caratterizzata dalle seguenti proprietà:<br />
• l’apporto semantico del verbo cosiddetto supporto al significato dell’espressione è ridotto,<br />
controbilanciato dal ruolo fondamentale giocato dal nome o sequenza che lo segue: es. dare<br />
aiuto (aiutare), fare paragoni (paragonare) fare affermazioni (affermare) ecc.; (Da notare che<br />
una sequenza come mettere piede è da considerarsi una espressione i<strong>di</strong>omatica vera e propria<br />
perchè piede non conferisce un significato particolare a mettere);<br />
• il verbo serve soprattutto per convogliare i tratti grammaticali del tipo: tempo, aspetto, modo,<br />
persona ecc.;<br />
• uno stesso nome si può combinare con più VSUP (un numero comunque ristretto e fisso) che<br />
fungono da varianti aspettuali (es. essere/mettersi in viaggio);<br />
• i verbi che in alcune costruzioni possono avere la funzione <strong>di</strong> ‘supporto’ a livello semantico<br />
sono un numero ristretto, essere, avere, fare e pochi altri che spesso sono varianti aspettuali dei<br />
primi (es. dare, prendere, venire, mettere, entrare, ecc.).<br />
Le strutture con VSUP sono notoriamente molto varie. Alcuni (ve<strong>di</strong> Renzi, 1995) annoverano tra<br />
le espressioni con VSUP anche frasi del tipo Leo è un ven<strong>di</strong>tore che in<strong>di</strong>ca una con<strong>di</strong>zione<br />
permanente rispetto al verbo (Leo vende). Tuttavia in questa sede appare opportuno restringere la<br />
nozione <strong>di</strong> espressione con VSUP a quelle sequenze che presentano una certa fissità sintattica e una<br />
limitata variabilità lessicale. Nella <strong>Treebank</strong> <strong>di</strong> SI-TAL verranno annotate come strutture con VSUP<br />
i seguenti casi:<br />
97
Co<strong>di</strong>ce linea e Tema<br />
1. strutture con VSUP che sono una variante della forma verbale 1 :<br />
essere in viaggio > viaggiare<br />
essere alla ricerca > ricercare<br />
essere in contrad<strong>di</strong>zione > contrad<strong>di</strong>re<br />
fare paura > impaurire<br />
mettere paura > impaurire<br />
dare una lavata > lavare<br />
avere in o<strong>di</strong>o > o<strong>di</strong>are<br />
2. strutture con VSUP che sono una variante della forma aggettivale:<br />
essere nell’incertezza > incerto<br />
essere <strong>di</strong> notevole coraggio > coraggioso<br />
essere in agitazione > agitato<br />
essere in dubbio > dubbioso<br />
Questi due tipi <strong>di</strong> espressioni con VSUP presentano le seguenti caratteristiche:<br />
• le varianti della forma verbale si presentano come:<br />
VSUP + S<br />
VSUP + E (in, <strong>di</strong>, da, ecc.) + S<br />
dove il nome (S) è tipicamente astratto (es. o<strong>di</strong>o) e/o deverbale (es. viaggio)<br />
• le varianti della forma aggettivale si presentano come:<br />
VSUP + E (in, <strong>di</strong>, ecc.) + S<br />
dove il nome (S) è <strong>di</strong> tipo astratto e collegato ad un aggettivo (es. coraggio).<br />
• entrambe le espressioni con VSUP possono avere una loro specifica sottocategorizzazione e<br />
specifiche restrizioni <strong>di</strong> selezione. Ciò costituisce sia una ulteriore motivazione in favore della<br />
loro annotazione a livello semantico-lessicale che un criterio per annotare almeno i casi più<br />
interessanti da un punto <strong>di</strong> vista linguistico. Es.:<br />
essere in viaggio per la Mecca/ *viaggiare per la Mecca<br />
essere in contrad<strong>di</strong>zione con i fatti/ *contrad<strong>di</strong>re con i fatti<br />
fare affidamento su qualcuno/ *affidarsi su qualcuno<br />
Dal punto <strong>di</strong> vista delle applicazioni del corpus annotato, appare utile <strong>di</strong>fferenziare queste<br />
espressioni dalle altre per consentirne l’eventuale recupero. Va ricordato che al pari degli altri tipi <strong>di</strong><br />
espressioni i<strong>di</strong>omatiche, quelle a con VSUP non hanno sempre un esatto equivalente in altre lingue<br />
come appare dai seguenti esempi presi da Ruimy e Corazzari (1991):<br />
1 In IWN, queste espressioni con VSUP saranno incluse nel synset del verbo <strong>di</strong> cui esse costituiscono una variante.<br />
98
Co<strong>di</strong>ce linea e Tema<br />
essere <strong>di</strong> poche parole= etre peu causant<br />
essere nei guai=avoir des ennuis<br />
essere <strong>di</strong> garanzia=servir de garantie<br />
essere in aumento=augmenter<br />
Diamo qui <strong>di</strong> seguito alcuni esempi estratti dal corpus della <strong>Treebank</strong> <strong>di</strong> SI-TAL:<br />
VSUP S E + S<br />
fare<br />
fuoco; affermazioni;<br />
paragoni; complimenti;<br />
esempi; il confronto; la<br />
guar<strong>di</strong>a; progressi;<br />
affidamento; concessioni;<br />
prognostici; previsioni;<br />
programmi; verifica;<br />
pulizia; esempi; pipì;<br />
esercizi; cura; guerra<br />
mettere paura in scena; in <strong>di</strong>scussione; in<br />
posa<br />
dare<br />
fuoco<br />
essere<br />
a conoscenza; in possesso<br />
Le espressioni con VSUP sono trattate al pari delle espressioni i<strong>di</strong>omatiche come un’unica unità<br />
<strong>di</strong> senso. Per consentire l’eventuale recupero automatico <strong>di</strong> queste espressioni appare sufficiente<br />
assegnare all’elemento USC il tratto tipousc al quale viene assegnato il valore “vsup” (tipo <strong>di</strong><br />
USC=con verbo supporto).<br />
L’annotazione delle espressioni con VSUP avviene me<strong>di</strong>ante l’identificazione <strong>di</strong> un elemento <strong>di</strong><br />
tipo USC descritto dai seguenti tratti: lem e tipousc (al quale viene assegnato il valore “vsup”). Nel<br />
caso in cui l’espressione sia inclusa nella risorsa lessicale <strong>di</strong> riferimento, l’annotazione include<br />
anche la specificazione dei tratti dbref e ns.<br />
6.3.5 Criteri <strong>di</strong> annotazione delle UST<br />
L’annotazione dei titoli in generale (<strong>di</strong> spettacoli, giornali, libri ecc.) è necessaria a livello<br />
semantico-lessicale perché essi sono espressioni che hanno un comportamento particolare rispetto al<br />
contesto in cui figurano. I titoli si comportano come (micro)testi in<strong>di</strong>pendenti all’interno <strong>di</strong> un altro<br />
testo. La loro annotazione è auspicabile almeno per le seguenti ragioni:<br />
- in vista del recupero <strong>di</strong> informazioni da testi, l’annotazione dei titoli rende più atten<strong>di</strong>bili le<br />
informazioni estratte; ad esempio, in una indagine su fiori e piante, non verrebbe estratto il<br />
contesto pubblicare ‘I fiori del male’;<br />
- in vista <strong>di</strong> un eventuale uso del corpus annotato in traduzione automatica, appare evidente che i<br />
titoli devono essere <strong>di</strong>fferenziati sia perchè talvolta essi non sono tradotti con un esatto<br />
99
Co<strong>di</strong>ce linea e Tema<br />
equivalente sia perchè talvolta essi sono lasciati invariati, cioè come appaiono nella lingua<br />
sorgente.<br />
Va, infine, sottolineato che in un corpus giornalistico, i titoli occorrono molto frequentemente.<br />
L’elemento UST (unità semantica <strong>di</strong> tipo titolo) serve per marcare i titoli. Esso può riferirsi ad<br />
una singola parola o a più parole a<strong>di</strong>acenti. I titoli, quando sono composti da più parole,<br />
con<strong>di</strong>vidono alcune caratteristiche delle USC perché si comportano sintatticamente e<br />
semanticamente come una unica unità.<br />
Tuttavia al contrario delle USC, trattate in precedenza, le UST sono sempre composizionali (anche<br />
se possono includere a loro volta delle USC), cioè i singoli componenti mantengono il loro<br />
significato proprio, e sono sempre continue. Ciò implica che ricevono una doppia annotazione: una<br />
a livello dei singoli componenti e un’altra a livello dell’intera unità UST.<br />
L’attributo tipot consente <strong>di</strong> <strong>di</strong>stinguere i nomi <strong>di</strong> spettacoli/film (il valore è “spettacolo”) da<br />
quelli <strong>di</strong> testi scritti, giornali, libri ecc. (il valore è “semiotico”). Tale <strong>di</strong>stinzione è giustificata dalle<br />
seguenti ragioni:<br />
- titoli <strong>di</strong>versi co-occorrono con lemmi semanticamente <strong>di</strong>versi (es. leggere/pubblicare/scrivere<br />
un tipot=semiotico // guardare, registrare un tipot=spettacolo);<br />
- da un punto <strong>di</strong> vista dei tipi/concetti semantici, ci può essere una <strong>di</strong>fferenziazione dei due tipi <strong>di</strong><br />
referenti del titolo (es. “artefatto semiotico / informazione” // “opera d’arte”);<br />
- in precedenti esperienze <strong>di</strong> annotazione del corpus i titoli <strong>di</strong> testi scritti o spettacoli sono risultati<br />
i più frequenti (si veda Corazzari et al., 1999).<br />
Il valore “indef”, invece, consente all’annotatore che non deve/può avere necessariamente una<br />
conoscenza enciclope<strong>di</strong>ca <strong>di</strong> lasciare sottospecificato questo attributo.<br />
L’elemento UST è descritto dagli attributi: lem; ns (il valore assegnato al numero <strong>di</strong> senso della<br />
UST è ovviamente ‘no’ poiché essi non sono fanno parte della risorsa lessicale <strong>di</strong> riferimento); tipot.<br />
6.3.6 Gli Usi Figurati<br />
Per usi figurati si intendono gli usi metaforici, metonimici ecc., a livello sia <strong>di</strong> USS sia <strong>di</strong> USC. In<br />
quanto segue <strong>di</strong>amo criteri per l’in<strong>di</strong>viduazione e l’annotazione <strong>di</strong> usi figurati.<br />
6.3.6.1 La Metafora<br />
La metafora come fatto linguistico è interpretata nella letteratura principalmente in tre mo<strong>di</strong><br />
<strong>di</strong>versi. La metafora è:<br />
- una anomalia: cioè una violazione delle restrizioni <strong>di</strong> selezione (ve<strong>di</strong> Casadei 1996, Fass, 1991)<br />
- una comparazione: “la metafora è il trasferimento a un termine (detto “topic”, ad esempio<br />
Mario) <strong>di</strong> un nome appartenente a un altro (detto “vehicle”, ad esempio leone) in base a un<br />
elemento <strong>di</strong> somiglianza tra i due (detto “ground”, cioè il coraggio)” (Casadei 1996; si veda<br />
anche Fass, 1991)<br />
100
Co<strong>di</strong>ce linea e Tema<br />
- una interazione: si pensa che “la metafora proietti sul “topic” non una singola proprietà ma un<br />
insieme <strong>di</strong> implicazioni convenzionalmente associate al “vehicle” (conoscenze, credenze, luoghi<br />
comuni sul “vehicle”), i cui contenuti sono selezionati anche dallo specifico “topic” “ (Casadei<br />
1996; si veda anche Fass, 1991).<br />
Da un punto <strong>di</strong> vista operativo, appare fondamentale la <strong>di</strong>stinzione tra metafora lessicalizzata e<br />
non lessicalizzata. Tale <strong>di</strong>stinzione può essere operata sia rispetto alla risorsa lessicale <strong>di</strong><br />
riferimento sia ad altri <strong>di</strong>zionari della lingua italiana.<br />
Le metafore lessicalizzate ricevono il numero del senso corrispondente in IWN e il tratto<br />
fig=metaf che le identifica come metafore (es. la chiave del problema, tavolo delle trattative,<br />
volano battute).<br />
Le metafore non lessicalizzate ricevono un numero <strong>di</strong> senso che rinvia al loro significato letterale<br />
ed il tratto fig=metaf per marcare l’uso metaforico (es. Zepe sotto il fuoco <strong>di</strong> Mla<strong>di</strong>c).<br />
Da un punto <strong>di</strong> vista applicativo, le prime non danno luogo a violazione delle restrizioni <strong>di</strong><br />
selezione perché sono integrate nel lessico e in termini <strong>di</strong> tipi/concetti semantici sono descritte in<br />
modo appropriato (es. non capisco la molla (tipo/concetto semantico=causa e non artefatto) <strong>di</strong><br />
una tale violenza) mentre le seconde sì. Tuttavia la presenza del tratto fig=metaf consente <strong>di</strong><br />
sottolineare l’uso particolare del lemma.<br />
Va da sé che può rivelarsi necessario integrare il lessico <strong>di</strong> riferimento con usi metaforici che<br />
ricorrono frequentemente, ad esempio, nei testi giornalistici anche se non sono forse ancora attestati<br />
nei <strong>di</strong>zionari correnti (es. ver<strong>di</strong> per in<strong>di</strong>care gli ecologisti).<br />
6.3.6.2 La Metonimia<br />
La metonimia implica l’uso <strong>di</strong> una entità per riferirsi ad un’altra ad essa collegata (Fass,1991).<br />
Numerosi tentativi sono stati fatti <strong>di</strong> in<strong>di</strong>viduare e classificare tipi <strong>di</strong>versi <strong>di</strong> metonimie. I tipi più<br />
frequenti sembrano essere quelli che in<strong>di</strong>cano:<br />
- la parte per il tutto (l’insieme);<br />
- il contenitore per il contenuto;<br />
- il produttore per il prodotto;<br />
- l’oggetto usato per chi lo usa;<br />
- la causa per il risultato;<br />
- ecc.<br />
La metonimia, al pari della metafora, è caratterizzata da una violazione delle restrizioni <strong>di</strong><br />
selezione ma si <strong>di</strong>fferenzia da essa per le seguenti ragioni (Fass, 1991) 2 :<br />
2 La <strong>di</strong>stinzione tra metafora e metonimia è un punto controverso. Per molti l’una equivale all’altra e viceversa<br />
(Fass, 1991).<br />
101
Co<strong>di</strong>ce linea e Tema<br />
1. la metonimia è una relazione <strong>di</strong> contiguità (l’essere connesso a qualcosa) mentre la metafora è<br />
una relazione <strong>di</strong> similitu<strong>di</strong>ne (l’essere come…);<br />
2. “la metafora è principalmente una maniera <strong>di</strong> concepire una cosa in termini <strong>di</strong> un’altra e la sua<br />
funzione principale è la comprensione, mentre la metonimia ha principalmente una funzione<br />
referenziale, cioè, permette <strong>di</strong> usare una entità al posto <strong>di</strong> un’altra, pertanto essa ha un ruolo <strong>di</strong><br />
comprensione perché si focalizza su certi aspetti <strong>di</strong> ciò a cui ci si riferisce” (traduzione da Fass,<br />
1991).<br />
Analogamente al caso della metafora, le metonimie lessicalizzate vengono annotate me<strong>di</strong>ante<br />
l’assegnazione del numero <strong>di</strong> senso nella risorsa lessicale <strong>di</strong> riferimento e l’assegnazione del valore<br />
“meton” al tratto fig. Le metonimie non lessicalizzate (es. scende la pace sulle rotaie) ricevono<br />
un’assegnazione <strong>di</strong> senso che rinvia al loro significato letterale, mentre – <strong>di</strong> nuovo - al tratto fig<br />
viene assegnato il valore “meton”.<br />
6.3.7 Terminologia<br />
Per “terminologia” s’intende “il complesso dei termini, delle locuzioni, del frasario proprio <strong>di</strong><br />
una scienza, <strong>di</strong> un’arte o <strong>di</strong> un particolare settore tecnico o ambito sociale” (Palazzi-Folena,<br />
Dizionario della lingua italiana, 1995). Nel caso specifico del dominio finanziario, proprio della<br />
parte specializzata del corpus <strong>di</strong> SI-TAL, la terminologia si riconduce in buona parte a:<br />
• termini stranieri<br />
Nell’ambito <strong>di</strong> corpora a carattere finanziario si riscontra un uso piuttosto esteso <strong>di</strong> termini<br />
stranieri, principalmente inglesi. Si assume infatti che per molte azioni ed eventi del mondo<br />
economico valga un gergo internazionale poiché l’economia è intesa in senso mon<strong>di</strong>ale e la<br />
lingua inglese rappresenta la lingua comune d’interscambio. Nell’insieme <strong>di</strong> termini stranieri<br />
presenti nel corpus si <strong>di</strong>stinguono quelli ormai <strong>di</strong>venuti d’uso comune (es. leader, import,<br />
export, ...), che come tali sono riportati sui <strong>di</strong>zionari della lingua italiana, e quelli, usati<br />
magari con una certa frequenza, ma più specifici del dominio (es. rating, tax, trend,...) che<br />
non sono stati ancora inseriti nei <strong>di</strong>zionari.<br />
• espressioni polilessicali<br />
Si tratta <strong>di</strong> espressioni tipicamente composte da 2-3 parole per in<strong>di</strong>care oggetti, fatti, eventi del<br />
mondo finanziario (es. consiglio <strong>di</strong> revisione, quota azionaria, prestito obbligazionario, ...).<br />
• sigle o acronimi<br />
Sigle e acronimi ricorrono con una certa frequenza all’interno del corpus. L’uso <strong>di</strong> questi avviene<br />
principalmente in sostituzione delle espressioni complesse citate sopra (es. cda in luogo <strong>di</strong><br />
consiglio <strong>di</strong> amministrazione). Le ragioni <strong>di</strong> tale uso sono da ricercarsi in primo luogo nella<br />
como<strong>di</strong>tà <strong>di</strong> una forma abbreviata che evita la pesantezza dell’intera espressione complessa.<br />
In secondo luogo, tale uso è dettato dall’adozione <strong>di</strong> un gergo che si suppone essere noto (es.<br />
opa, pil, bot), almeno a chi opera in quel campo.<br />
Per l’annotazione <strong>di</strong> sigle e acronimi si deve far riferimento al numero <strong>di</strong> senso associato<br />
all’espressione polilessicale ad essi corrispondente nella risorsa lessicale <strong>di</strong> riferimento. La<br />
presenza <strong>di</strong> svariate forme ad in<strong>di</strong>care la stessa espressione complessa, suggerisce <strong>di</strong> associare<br />
ad ogni acronimo l’informazione relativa al nome per esteso. In questo modo,<br />
102
Co<strong>di</strong>ce linea e Tema<br />
in<strong>di</strong>pendentemente dal fatto che esso sia formato a partire dalle sole prime lettere iniziali (es.<br />
pil per prodotto interno lordo) o includa o meno le preposizioni o gli articoli (es. cdr per<br />
consiglio <strong>di</strong> revisione) oppure ancora sia formato <strong>di</strong> lettere maiuscole e minuscole (es. BoT<br />
per Buoni or<strong>di</strong>nari del Tesoro) o <strong>di</strong> sole lettere minuscole (es. cda per Consiglio <strong>di</strong><br />
Amministrazione) o <strong>di</strong> sole lettere maiuscole (es. AME per Accordo Monetario Europeo)<br />
oppure ancora includa o meno il segno <strong>di</strong> punto (es. spa ma anche s.p.a o S.p.A.), si può<br />
facilmente risalire alla forma base sciolta a cui l’acronimo si riferisce. Ad esempio, leggendo<br />
cdd o c.d.d o c.d.d. (o tutte le svariate forme con punti o lettere maiuscole/minuscole) si può<br />
risalire a consiglio dei delegati.<br />
Il riferimento esplicito all’espressione sciolta aiuta anche nei casi <strong>di</strong> ambiguità risolvibili solo<br />
attraverso il contesto (es. c.d è usato per in<strong>di</strong>care sia consigliere delegato sia comitato<br />
<strong>di</strong>rettivo).<br />
Si noti comunque che il numero <strong>di</strong> senso viene specificato solo nel caso in cui la sigla o<br />
l’acronimo figurano nella risorsa lessicale <strong>di</strong> riferimento (la sigla o l’acronimo in corso <strong>di</strong><br />
annotazione faranno parte dello stesso synset dell’espressione polilessicale corrispondente); in<br />
caso contrario viene assegnato il valore ‘no’ al tratto ns.<br />
Nel caso invece <strong>di</strong> USC <strong>di</strong> tipo terminologico non esistono criteri <strong>di</strong> in<strong>di</strong>viduazione specifici e<br />
pertanto si rimanda alla sezione 6.3.4.3.1 relativa ai “Criteri <strong>di</strong> identificazione delle espressioni<br />
i<strong>di</strong>omatiche e composti”.<br />
6.3.8 Casi <strong>di</strong> mancata corrispondenza tra la risorsa lessicale <strong>di</strong> riferimento e l’uso<br />
attestato<br />
In fase <strong>di</strong> assegnazione del un numero <strong>di</strong> senso ad una data occorrenza del corpus si possono<br />
verificare i seguenti casi problematici:<br />
• assenza del lemma nella risorsa lessicale <strong>di</strong> riferimento;<br />
• assenza del senso rilevante <strong>di</strong> un lemma già presente nella risorsa lessicale <strong>di</strong> riferimento;<br />
• corrispondenza con più sensi dello stesso lemma.<br />
Le modalità <strong>di</strong> annotazione <strong>di</strong> questi casi nell’ambito del progetto sono dettagliate <strong>di</strong> seguito.<br />
6.3.8.1 Assenza del lemma<br />
Si possono verificare i seguenti casi:<br />
- parole correnti non ancora inserite nel database lessicale <strong>di</strong> riferimento (perché in costruzione);<br />
- nomi propri (anche acronimi e sigle <strong>di</strong> ogni tipo, es. Andreotti, UNICEF);<br />
- parole composte (es. calce viva);<br />
- espressioni i<strong>di</strong>omatiche (es. tagliare la testa al toro);<br />
- parole straniere (es. capital_gain);<br />
103
Co<strong>di</strong>ce linea e Tema<br />
- neologismi (es. gli andreottiani; i piduisti)<br />
- terminologia (es. bilancia dei pagamenti)<br />
- ecc.<br />
Il caso <strong>di</strong> assenza del lemma nella risorsa lessicale <strong>di</strong> riferimento è co<strong>di</strong>ficato al livello del tratto<br />
ns, il cui valore è no_lemma (ns=no_lemma).<br />
Nell’ambito <strong>di</strong> SI-TAL questa assegnazione è generalmente da considerarsi come provvisoria in<br />
quanto una volta che la risorsa lessicale <strong>di</strong> riferimento sarà stata integrata con l’informazione<br />
mancante sarà sostituita con l’assegnazione definitiva.<br />
6.3.8.2 Assenza del senso rilevante <strong>di</strong> un lemma già presente in IWN<br />
Il caso <strong>di</strong> assenza del senso rilevante <strong>di</strong> un lemma già presente nella risorsa lessicale <strong>di</strong><br />
riferimento viene segnalato ai lessicografi in modo che possano effettuare l’integrazione della<br />
risorsa: il gruppo dei lessicografi vaglierà l’opportunità <strong>di</strong> tale integrazione.<br />
Le seguenti considerazioni generali forniranno all’annotatore una guida nella selezione dei casi<br />
da segnalare come “assenza <strong>di</strong> senso rilevante”:<br />
1) non sembra auspicabile la creazione <strong>di</strong> eccessiva granularità in un lessico semantico con varie<br />
finalità applicative in Natural Language Processing (si veda Fellbaum et al. 1998; Calzolari et<br />
al. (in corso <strong>di</strong> stampa); Voorhees 1998);<br />
2) l’identificazione <strong>di</strong> un nuovo senso e l’inserimento dello stesso nel database lessicale <strong>di</strong><br />
riferimento sono fortemente con<strong>di</strong>zionati anche dalle possibilità offerte dal database stesso <strong>di</strong><br />
identificarlo e descriverlo in modo univoco rispetto agli altri sensi;<br />
3) talvolta i contesti dell’occorrenza determinano più o meno importanti variazioni <strong>di</strong> significato<br />
che tuttavia non possono essere considerati sempre e in ogni caso veri e propri nuovi sensi<br />
(ciascun contesto infatti enfatizza determinati tratti semantici <strong>di</strong> un senso e ne oscura altri senza<br />
tuttavia determinare necessariamente l’esistenza <strong>di</strong> un nuovo significato).<br />
A parte queste considerazioni generali, non sembra esistano criteri univoci che possono essere<br />
sempre applicati a tutti i lemmi in<strong>di</strong>pendentemente dalla loro categoria morfo-sintattica e dalle loro<br />
caratteristiche sintattico-semantiche.<br />
Il caso <strong>di</strong> assenza del senso rilevante <strong>di</strong> un lemma già presente nella risorsa lessicale <strong>di</strong><br />
riferimento è co<strong>di</strong>ficato al livello del tratto ns, il cui valore è no_senso. Nell’ambito <strong>di</strong> SI-TAL,<br />
questa assegnazione è da considerarsi come provvisoria in quanto una volta che la risorsa lessicale<br />
<strong>di</strong> riferimento sarà stata integrata con l’informazione mancante sarà sostituita con l’assegnazione<br />
definitiva.<br />
6.3.9 Corrispondenza con più sensi dello stesso lemma<br />
Nel caso l’occorrenza in corso <strong>di</strong> annotazione trovi corrispondenza con più sensi dello stesso<br />
lemma, si procede come segue:<br />
104
Co<strong>di</strong>ce linea e Tema<br />
1. quando c’è una corrispondenza simultanea con più sensi dello stesso lemma, ad esempio S1 e<br />
S2, le due alternative sono fornite come segue: S1 & S2;<br />
Per esempio, mantenere che significa 1. tenere, far durare in modo che non venga meno (i<br />
contatti) e 2. tenere saldo, <strong>di</strong>fendere (un primato), figura nel corpus nei seguenti contesti:.<br />
- le Nazioni Unite <strong>di</strong>spongono <strong>di</strong> forze armate proprie per mantenere la pace<br />
- Potranno essi ad esempio mantenere la loro con<strong>di</strong>zione <strong>di</strong> neutralità?<br />
- Mentre taluni donatori sono <strong>di</strong>sposti a mantenere l’attuale livello dei loro stanziamenti <strong>di</strong><br />
aiuto<br />
Un altro esempio è conoscere che può significare sia 1. sapere, avere esperienza che 2. avere<br />
notizia, cognizione <strong>di</strong> qualcosa. Negli esempi del corpus coesistenza dei due significati<br />
permane:<br />
- La Commissione conosce i gravi problemi che la siccità pone all’agricoltura portoghese<br />
- La Commissione conosce perfettamente l’insod<strong>di</strong>sfacente situazione fiscale in cui si trovano<br />
le persone soggette all’imposta sul red<strong>di</strong>to<br />
In entrambi i casi riportati sopra, l’annotatore segnalerà la pertinenza <strong>di</strong> entrambi i sensi ai<br />
contesti annotati fornendo le due alternative congiunte.<br />
2. in casi <strong>di</strong> ambiguità del contesto, ovvero quando non vi siano elementi per poter <strong>di</strong>scriminare ad<br />
esempio tra S1 ed S2 si annota come segue: S1 | S2. Va detto che questo caso è previsto<br />
essenzialmente per completezza delle specifiche <strong>di</strong> annotazione dal momento che<br />
nell’annotazione <strong>di</strong> un testo continuo ci si aspetta che i contesti realmente ambigui siano pochi.<br />
Diamo qui <strong>di</strong> seguito un esempio. Mantenere che può significare 1.tenere, far durare in modo<br />
che non venga meno (i contatti) e 2. finanziare, figura nella frase:<br />
- Intende il Consiglio dei ministri della CEE mantenere ed eventualmente sviluppare<br />
un’attività <strong>di</strong> produzione europea in questo settore?<br />
In assenza <strong>di</strong> un contesto più ampio, non è possibile selezionare tra i due sensi in<strong>di</strong>cati sopra<br />
quello appropriato. In questo caso l’annotazione corretta dovrebbe segnalare l’ambiguità del<br />
contesto assegnando all’attributo ns una <strong>di</strong>sgiunzione <strong>di</strong> sensi possibili (1 e 2).<br />
I casi <strong>di</strong> corrispondenza con più sensi dello stesso lemma menzionati sopra sono co<strong>di</strong>ficati al<br />
livello del tratto ns il cui valore sono più sensi in relazione <strong>di</strong> congiunzione o <strong>di</strong>sgiunzione:<br />
ns=S1&S2; S1|S2.<br />
Tuttavia, per evitare l’uso frequente <strong>di</strong> operatori logici, in alcuni casi si ritiene opportuno non<br />
combinare i sensi bensì fare riferimento, nei casi in cui esista, al senso più generico. È questo il<br />
caso, ad esempio, del lemma russo, al quale sono associati in IWN tre sensi <strong>di</strong>stinti:<br />
- nativo della Russia<br />
- abitante della Russia<br />
- lingua<br />
dove la <strong>di</strong>stinzione tra il primo ed il secondo senso è piuttosto sottile e non facilmente<br />
applicabile in casi del tipo un operaio russo…, <strong>di</strong> fronte ai quali è preferibile fare riferimento al<br />
senso più generico (russo ‘nativo della Russia’).<br />
105
Co<strong>di</strong>ce linea e Tema<br />
Più in generale, in casi <strong>di</strong> <strong>di</strong>fficile interpretazione – ovvero dove il contesto non fornisca<br />
l’informazione sufficiente - è preferibile selezionare un’interpretazione sottospecificata piuttosto<br />
che fare una selezione <strong>di</strong> senso soggettiva e arbitraria, anche se plausibile.<br />
6.4 Aspetti <strong>di</strong> annotazione con SemTAS<br />
L'annotazione semantico-lessicale della <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata effettuata manualmente con<br />
l'ausilio <strong>di</strong> SemTAS, il sotto-sistema <strong>di</strong> GesTALt <strong>di</strong> supporto all’annotazione per questo livello. La<br />
progettazione <strong>di</strong> SemTAS è avvenuta sulla base delle Specifiche Tecniche elaborate al termine della<br />
Linea 1.1, quando il processo <strong>di</strong> annotazione vero e proprio non era stato ancora avviato.<br />
La fase <strong>di</strong> annotazione vera e propria ha dunque costituito il primo momento <strong>di</strong> validazione <strong>di</strong><br />
SemTAS. Inoltre, nel corso del processo <strong>di</strong> annotazione, le specifiche iniziali sono state riviste ed<br />
integrate alla luce dell'evidenza linguistica emergente dal corpus, come documentato nei rapporti <strong>di</strong><br />
fine Linea.<br />
In questa fase sono emersi aspetti delle specifiche non coperti al livello dell'interfaccia del tool <strong>di</strong><br />
annotazione e/o della struttura dati. Le revisioni apportate hanno riguardato soltanto l'insieme dei<br />
possibili valori associati ai vari attributi, che è stato arricchito sulla base dell’evidenza via via<br />
emergente dal corpus. Non è stato invece effettuato l’inserimento <strong>di</strong> nuovi attributi, che avrebbe<br />
alterato la struttura dei dati in una fase in cui il processo <strong>di</strong> annotazione era ormai avanzato,<br />
compromettendo la coerenza interna dei dati annotati. Analogamente al caso dell’annotazione<br />
funzionale (sezione 5.3), casi <strong>di</strong> questo tipo sono stati gestiti me<strong>di</strong>ante l'adozione <strong>di</strong> co<strong>di</strong>fiche<br />
transitorie al livello della base <strong>di</strong> dati <strong>di</strong> GesTALt, che sono state riconvertite secondo quanto<br />
previsto dalle specifiche al livello dell'output in XML (si veda l’Appen<strong>di</strong>ce relativa alla<br />
rappresentazione XML dell’annotazione semantico-lessicale). Questa sezione documenta le<br />
soluzioni <strong>di</strong> annotazione adottate transitoriamente per il livello semantico-lessicale.<br />
6.4.1 Combinando più risorse lessicali <strong>di</strong> riferimento<br />
La <strong>Treebank</strong> <strong>di</strong> SI-TAL è stata annotata rispetto a due risorse lessicali <strong>di</strong> riferimento: IWN-Gen,<br />
per il lessico generico, ed EcoWN per il lessico specialistico del settore finanziario.<br />
Stando alla versione finale delle specifiche, l’informazione relativa alla risorsa lessicale <strong>di</strong><br />
riferimento è convogliata dall’attributo dbref, inserito nella struttura dati solo in un secondo tempo.<br />
Onde consentire la <strong>di</strong>stinzione delle due risorse lessicali <strong>di</strong> riferimento (IWN-Gen ed EcoWN) con<br />
gli attributi previsti nella fase iniziale delle Specifiche, si è operata la scelta <strong>di</strong> fare precedere i<br />
numeri <strong>di</strong> senso relativi a EcoWN con il simbolo “$”. I valori dell’attributo ns (numero_senso)<br />
possono quin<strong>di</strong> essere: un numero (es. ns=3) o la combinazione <strong>di</strong> più numeri in OR o AND per i<br />
casi <strong>di</strong> interpretazione dubbia (es. ns= 1|2, ns= 1&2), se la risorsa <strong>di</strong> riferimento è IWN-Gen;<br />
oppure una sequenza $numero (es. ns=$1) o la combinazione in OR o AND <strong>di</strong> più sequenze (es.<br />
ns=$1&$2), se la risorsa lessicale <strong>di</strong> riferimento è EcoWN.<br />
6.4.2 Annotazione <strong>di</strong> nomi propri polilessicali<br />
Per l’annotazione <strong>di</strong> nomi propri polilessicali (es. Nuova Zelanda, Stati Uniti d’America, Giulio<br />
Andreotti, Real Madrid, ecc.), ed in modo particolare per la specificazione della corrispondente<br />
classe semantica, l’insieme dei possibili valori dell’attributo tipousc è stato temporaneamente<br />
arricchito come segue:<br />
106
Co<strong>di</strong>ce linea e Tema<br />
• np_pers: per nomi propri polilessicali che si riferiscono a persona (es. Giulio Andreotti);<br />
• np_grup: per nomi propri polilessicali che si riferiscono a istituzioni, organizzazioni o gruppo<br />
<strong>di</strong> persone (es. Real Madrid, Cassa <strong>di</strong> Risparmio <strong>di</strong> Torino);<br />
• np_man: per nomi propri polilessicali che si riferiscono a prodotto/manufatto (es. Fiat<br />
Cinquecento, Windows 98);<br />
• np_luog: per nomi propri polilessicali che si riferiscono a luogo (es. Nuova Zelanda; Stati<br />
Uniti d’America);<br />
• np_grup&luog: per nomi propri polilessicali ai quali non è possibile attribuire univocamente<br />
luogo o gruppo (es. la posizione della Repubblica <strong>di</strong> S. Marino è preferibile);<br />
• np: per nomi propri polilessicali che si riferiscono ad altri tipi <strong>di</strong> entità (es. Lotteria d’Italia,<br />
Festa dei Lavoratori).<br />
Ad eccezione <strong>di</strong> “np” che è previsto tra i possibili valori per questo attributo, tali valori non sono<br />
del tutto appropriati rispetto alla semantica dell’attributo tipousc; tuttavia consentono l’annotazione<br />
al livello <strong>di</strong> SemTAS <strong>di</strong> nomi propri composti mantenendo inalterata la struttura dei dati.<br />
6.4.3 Annotazione <strong>di</strong> neologismi e voci <strong>di</strong>alettali<br />
Come riportato nella sezione 6.2.9, l’informazione <strong>di</strong> neologismo e voce <strong>di</strong>alettale è riportata al<br />
livello dell’attributo tipolemma, non previsto dalle specifiche iniziali. Questo tipo <strong>di</strong> informazione è<br />
stata temporaneamente registrata in relazione a due attributi presenti nella struttura dati, nota o alter:<br />
“neolog” marca i neologismi, “<strong>di</strong>al” le voci <strong>di</strong>alettali.<br />
6.4.4 GesTALt/SemTAS vs XML<br />
La tabella che segue riporta, nella prima colonna, le co<strong>di</strong>fiche transitorie adottate al livello <strong>di</strong><br />
SemTAS, mentre nella seconda colonna ne specifica la corrispondente co<strong>di</strong>fica al livello dell’output<br />
XML.<br />
GesTALt/SemTAS<br />
numero_senso=$numero senso o numeri senso<br />
combinati con operatori logici AND/OR<br />
numero_senso= numero senso o numeri senso<br />
combinati con operatori logici and/or<br />
nota=neol<br />
alterazione=neol<br />
nota=<strong>di</strong>al<br />
tipousc=np_pers<br />
tipousc=np_grup<br />
output XML<br />
dbref=eco<br />
numero_senso=numero senso o numeri senso<br />
combinati con operatori logici and/or (senza $)<br />
dbref=gen<br />
numero_senso: il valore <strong>di</strong> questo attributo<br />
rimane inalterato<br />
tipolemma=neol<br />
attributo nota eliminato<br />
tipolemma=neol<br />
attributo alterazione eliminato<br />
tipolemma=<strong>di</strong>al<br />
attributo nota eliminato<br />
nome_proprio=pers<br />
tipousc=np<br />
nome_proprio=grup<br />
tipousc=np<br />
107
Co<strong>di</strong>ce linea e Tema<br />
GesTALt/SemTAS<br />
tipousc=np_luog<br />
tipousc=np_man<br />
tipousc=np_grup&luog<br />
output XML<br />
nome_proprio=luog<br />
tipousc=np<br />
nome_proprio=man<br />
tipousc=np<br />
nome_proprio=grup&luog<br />
tipousc=np<br />
7 Sviluppo <strong>di</strong> GesTALt<br />
GesTALt è un sistema <strong>di</strong> applicazioni software <strong>di</strong> supporto alla creazione e validazione della<br />
risorsa <strong>Treebank</strong> progettato per supportare nelle loro attività quattro classi <strong>di</strong>stinte <strong>di</strong> utenti: gli<br />
annotatori della struttura sintattica a costituenti, gli annotatori della struttura sintattico-funzionale,<br />
gli annotatori semantico-lessicali ed i validatori.<br />
Compito degli annotatori è <strong>di</strong> creare la risorsa <strong>Treebank</strong> partendo da una base <strong>di</strong> documenti<br />
(BDA) contenente l’insieme <strong>di</strong> testi <strong>di</strong> un corpus annotati morfosintatticamente, mentre quello dei<br />
validatori è <strong>di</strong> controllare che la risorsa sia stata ben annotata.<br />
In maggior dettaglio, gli annotatori sintattici a costituenti, sintattico-funzionali, e semanticolessicali<br />
svolgono le loro attività al fine <strong>di</strong> produrre, rispettivamente, annotazioni sintattiche a<br />
costituenti, annotazioni sintattico-funzionali ed annotazioni semantico-lessicali dei testi <strong>di</strong> un<br />
corpus.<br />
GesTALt mette a <strong>di</strong>sposizione <strong>di</strong> ognuno degli annotatori (sintattici a costituenti, sintatticofunzionali,<br />
e semantico-lessicali) una specifica applicazione <strong>di</strong> supporto (SinTAS, FunTAS e<br />
SemTAS, rispettivamente) unitamente ad una vista parziale della BDA, in maniera tale che essi<br />
possano svolgere le loro attività <strong>di</strong> annotazione ognuno, separatamente, al proprio livello. Ciò al<br />
fine <strong>di</strong> rendere più agile l’annotazione e <strong>di</strong> evitare l’interferenza tra i vari livelli.<br />
A supporto dei validatori, invece, GesTALt mette a <strong>di</strong>sposizione l’applicazione ValTAS insieme<br />
ad una vista globale della BDA che permetta loro <strong>di</strong> verificare sia le scelte fatte dagli annotatori sia<br />
la congruenza tra i livelli <strong>di</strong> annotazione.<br />
Nel paragrafi seguenti si fornisce una descrizione del processo <strong>di</strong> sviluppo adottato durante le<br />
linee <strong>di</strong> ricerca 1.2 ed 1.3 del progetto, dell’architettura software <strong>di</strong> GesTALt ed, infine, delle<br />
principali funzionalità offerte dalle applicazioni <strong>di</strong> supporto agli annotatori ed ai validatori.<br />
7.1 Processo <strong>di</strong> sviluppo del software<br />
Durante le linee <strong>di</strong> ricerca 1.2 ed 1.3 del progetto SI-TAL si è adottato, per la produzione del<br />
sistema software per l’annotazione, la validazione e la navigazione della <strong>Treebank</strong> <strong>Sintattico</strong>-<br />
<strong>Semantica</strong> dell’Italiano GesTALt, un processo <strong>di</strong> sviluppo iterativo, facente uso <strong>di</strong> tecniche <strong>di</strong><br />
prototipazione evolutiva e comprendente le seguenti attività principali:<br />
A1. Definizione Requisiti Utente<br />
Definizione <strong>di</strong> un primo insieme <strong>di</strong> requisiti utente relativo alle funzionalità <strong>di</strong> base da dover<br />
includere in GesTALt. Tale attività comprende le seguenti sotto-attività:<br />
A1.1 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione sintattica a<br />
costituenti.<br />
108
Co<strong>di</strong>ce linea e Tema<br />
A1.2 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione sintatticofunzionale.<br />
A1.3 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione semanticolessicale.<br />
A1.4 Definizione dei requisiti utente per le funzionalità <strong>di</strong> supporto alla validazione della<br />
<strong>Treebank</strong> <strong>di</strong> SiTAL<br />
A2. Co<strong>di</strong>fica<br />
Co<strong>di</strong>fica <strong>di</strong> un primo prototipo (<strong>di</strong> tipo evolutivo) <strong>di</strong> GesTALt sulla base dei requisiti utente<br />
raccolti. In maggior dettaglio, tale attività può essere specializzata nelle seguenti sotto-attività:<br />
A2.1 Co<strong>di</strong>fica <strong>di</strong> SinTAS, ovverosia del sottosistema <strong>di</strong> supporto all’annotazione sintattica a<br />
costituenti.<br />
A2.2 Co<strong>di</strong>fica <strong>di</strong> FunTAS, ovverosia del sottosistema <strong>di</strong> supporto all’annotazione sintatticofunzionale.<br />
A2.3 Co<strong>di</strong>fica <strong>di</strong> SemTAS, ovverosia del sottosistema <strong>di</strong> supporto all’annotazione semanticolessicale.<br />
A2.4 Co<strong>di</strong>fica <strong>di</strong> ValTAS, ovverosia del sottosistema <strong>di</strong> supporto alla validazione delle<br />
annotazioni.<br />
A3. Validazione <strong>di</strong> GesTALt<br />
Validazione delle funzionalità incluse nel prototipo realizzato. Le sotto-attività in cui si può<br />
sud<strong>di</strong>videre l’attività in oggetto sono:<br />
A3.1. Validazione <strong>di</strong> SinTAS.<br />
A3.2. Validazione <strong>di</strong> FunTAS.<br />
A3.3. Validazione <strong>di</strong> SemTAS.<br />
A3.4. Validazione <strong>di</strong> ValTAS.<br />
A4. Raffinamento dei Requisiti Utente<br />
Raffinamento dei requisiti utente prodotti sulla base dei commenti forniti dagli utenti durante<br />
l’attività <strong>di</strong> validazione del prototipo. L’attività in questione si compone delle seguenti sottoattività:<br />
A4.1 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione<br />
sintattica a costituenti.<br />
A4.2 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione<br />
sintattico-funzionale.<br />
A4.3 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto all’annotazione<br />
semantico-lessicale.<br />
A4.4 Raffinamento dei requisiti utente per le funzionalità <strong>di</strong> supporto alla validazione della<br />
<strong>Treebank</strong> <strong>di</strong> SiTAL.<br />
A5. Raffinamento <strong>di</strong> GesTALt<br />
Raffinamento del prototipo prodotto finalizzato a produrre una nuova versione <strong>di</strong> GesTALt che<br />
sia conforme ai requisiti utente. In particolare, le sotto-attività in cui il raffinamento <strong>di</strong> GesTALt<br />
può essere sud<strong>di</strong>viso sono:<br />
A5.1 Raffinamento <strong>di</strong> SinTAS.<br />
A5.2 Raffinamento <strong>di</strong> FunTAS.<br />
A5.3 Raffinamento <strong>di</strong> SemTAS.<br />
109
Co<strong>di</strong>ce linea e Tema<br />
A5.4 Raffinamento <strong>di</strong> ValTAS.<br />
Contrariamente a quanto originariamente riportato nei piani <strong>di</strong> attuazione relativi alle linee <strong>di</strong><br />
ricerca 1.2 ed 1.3 del progetto, le varie attività ora introdotte non sono state eseguite nell’or<strong>di</strong>ne<br />
sopra in<strong>di</strong>cato, ma secondo quanto in<strong>di</strong>cato nella seguente tabella:<br />
Or<strong>di</strong>ne Attività Linea <strong>di</strong><br />
attuazione<br />
1 A1.1, A1.2, A1.3, A1.4 1.2<br />
2 A2.1, A2.2, A2.3 1.2<br />
3 A3.1, A3.2, A3.3, A4.1, A4.2, A4.3, A5.1, A5.2, A5.3 1.2<br />
4 A2.4 1.3<br />
5 A3.4 1.3<br />
Tabella 1 – Or<strong>di</strong>ne <strong>di</strong> esecuzione delle attività <strong>di</strong> sviluppo<br />
Come si può notare da quanto riportato in Tabella 1:<br />
− durante la linea <strong>di</strong> ricerca 1.2, sono state eseguite tutte le attività che vanno dalla prima<br />
definizione dei requisiti utente, al raffinamento dei sottosistemi SinTAS, FunTAS e<br />
SemTAS;<br />
− una prima versione dei requisiti utente relativi a ValTAS è stata prodotta durante la linea <strong>di</strong><br />
ricerca 1.2;<br />
− le attività <strong>di</strong> co<strong>di</strong>fica e validazione <strong>di</strong> ValTAS sono state effettuate durante la linea <strong>di</strong> ricerca<br />
1.3;<br />
− al termine della attività <strong>di</strong> validazione del sottosistema ValTAS, non si è reso necessario<br />
procedere all’attuazione delle attività <strong>di</strong> raffinamento dei requisiti ad esso relativi, nonché<br />
del sottosistema stesso (attività A4.4 ed A5.4).<br />
Che non sia stato necessario attuare le attività A4.4 ed A4.5, <strong>di</strong>pende fondamentalmente dal fatto<br />
che, prima <strong>di</strong> intraprendere la co<strong>di</strong>fica <strong>di</strong> ValTAS, è stato prodotto un emendamento dettagliato ai<br />
requisiti iniziali definiti durante l’attività A1.4. Tale emendamento ha permesso <strong>di</strong> sviluppare da<br />
subito un sottosistema che incontra le richieste dei validatori della <strong>Treebank</strong> <strong>di</strong> SI-TAL, piuttosto<br />
che un primo prototipo da dover essere successivamente rilavorato secondo le <strong>di</strong>rettive dell’utenza.<br />
Accanto alle attività sopra elencate, e durante entrambe le linee <strong>di</strong> ricerca 1.2 ed 1.3, è stata<br />
svolta, inoltre, una costatante attività <strong>di</strong> co<strong>di</strong>fica atta a produrre una serie <strong>di</strong> applicazioni <strong>di</strong> utilità<br />
de<strong>di</strong>cate a supportare gli annotatori e validatori durante il loro lavoro.<br />
7.2 Architettura <strong>di</strong> GesTALt<br />
Il sistema GesTALt può essere pensato come la composizione <strong>di</strong> quattro sottosistemi <strong>di</strong>stinti,<br />
denominati SinTAS, FunTAS, SemTAS e ValTAS de<strong>di</strong>cati, rispettivamente, al supporto delle<br />
attività <strong>di</strong> annotazione sintattica a costituenti, <strong>di</strong> annotazione sintattico–funzionale, <strong>di</strong> annotazione<br />
semantico–lesscicale e <strong>di</strong> validazione della <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />
110
Co<strong>di</strong>ce linea e Tema<br />
Ognuno <strong>di</strong> detti sottosistemi raggruppa un ben definito insieme <strong>di</strong> componenti software i quali<br />
interagiscono l’uno con gli altri in modo tale da fornire le funzionalità richieste dagli utenti.<br />
I componenti software possono essere classificati come componenti comuni, nel caso in cui essi<br />
siano con<strong>di</strong>visi da due o più sottosistemi, o come componenti specializzati, se essi sono utilizzati da<br />
un unico sottosistema.<br />
L’architettura generale <strong>di</strong> GesTALt comprende dunque l’insieme dei componenti comuni nonché<br />
<strong>di</strong> quelli specializzati relativi a tutti i sottosistemi definiti. Tale architettura è descritta in Figura 1,<br />
dove i componenti software sono rappresentati come rettangoli, mentre le interazioni tra essi sono<br />
in<strong>di</strong>cate me<strong>di</strong>ante l’uso <strong>di</strong> frecce.<br />
SinTAS GUI<br />
FunTAS<br />
GUI<br />
SinTAS<br />
GUI<br />
SemTAS<br />
GUI<br />
FunTAS<br />
Manager<br />
SinTAS<br />
Manager<br />
SemTAS<br />
Manager<br />
ValTAS<br />
Manager<br />
Corpus Analizzato<br />
Morfo-Sintatticamente<br />
(XML Files)<br />
XML Loader<br />
(Wrapper-In)<br />
GesTALt<br />
OODB<br />
Tree Loader<br />
Annotazioni<br />
Sintattiche a Costituenti<br />
(XML Files)<br />
Correzioni al Corpus<br />
Analizzato<br />
Morfo-Sintatticamente<br />
(XML Files)<br />
Update Loader<br />
Wrapper-Out<br />
CorpusAnnotato<br />
(XML Files)<br />
CorpusAnnotato<br />
(HTML Files)<br />
SSParser<br />
StyleSheet<br />
Figura 1 – Architettura Software <strong>di</strong> GesTALt<br />
In maggior dettaglio, i componenti comuni ai vari sottosistemi sono:<br />
− GestTALt – OODB. È la base dati orientata agli oggetti (la DBA, cfr.7) utilizzata per<br />
immagazzinare all’interno <strong>di</strong> GesTALt l’intera <strong>Treebank</strong> <strong>di</strong> SI-TAL. Trattandosi <strong>di</strong> una base<br />
dati orientata agli oggetti, ogni entità linguistica è trattata come un oggetto software che<br />
incorpora quin<strong>di</strong> sia la struttura dati necessaria ad immagazzinare detta entità, sia l’insieme delle<br />
interrogazioni necessarie per reperire informazioni ad essa relative.<br />
− XML Loader (Wrapper-in). È il componente che provvede al caricamento dell’insieme <strong>di</strong> testi<br />
analizzati morfo-sintatticamente <strong>di</strong> un dato corpus nel GesTALt – OODB. Detto componente<br />
prende in ingresso un file in formato XML per ogni testo da introdurre.<br />
111
Co<strong>di</strong>ce linea e Tema<br />
− Wrapper-out. È il componente che provvede a produrre una rappresentazione XML delle<br />
annotazioni contenute nel GesTALt – OODB. L’uso del formalismo XML permette <strong>di</strong> rendere la<br />
<strong>Treebank</strong> <strong>di</strong> SI-TAL pubblicamente accessibile. Di fatti, le informazioni contenute in essa<br />
possono essere “navigate” in<strong>di</strong>pendentemente dalla <strong>di</strong>sponibilità del sistema GesTALt,<br />
me<strong>di</strong>ante un qualsiasi XML compliant internet browser.<br />
− SSParser. È il componente che permette <strong>di</strong> riorganizzare, me<strong>di</strong>ante l’uso <strong>di</strong> stylesheet, la<br />
rappresentazione XML della <strong>Treebank</strong> <strong>di</strong> SI-TAL prodotta me<strong>di</strong>ante Wrapper-out secondo una<br />
specifica data. Tale componente consente inoltre <strong>di</strong> convertire i documenti XML relativi alla<br />
<strong>Treebank</strong> in documenti HTML, testo, pdf o ps.<br />
− Update Loader. È il componente che permette <strong>di</strong> apportare eventuali correzioni all’annotazione<br />
morfo-sintattica <strong>di</strong> un corpus caricato nel GesTALt – OODB. Come nel caso dell’XML Loader,<br />
anche l’Update Loader prende in ingresso file in formato XML.<br />
− Merger. È il componente che permette <strong>di</strong> unificare le annotazioni contenute nelle varie viste<br />
parziale della BDA in un’unica base dati (cfr. 7) contenente l’intera <strong>Treebank</strong> <strong>di</strong> SI-TAL.<br />
I componenti specializzati relativi ai vari sottosistemi sono:<br />
− Le interfacce grafiche utilizzate per le attività <strong>di</strong> annotazione sintattica a costituenti, sintattico–<br />
funzionale e semantico–lessicale, nonché per quella <strong>di</strong> validazione (in Figura 1 denominati<br />
rispettivamente FunTAS GUI, SinTAS GUI, SemTAS GUI e ValTAS GUI). Si noti che la<br />
SemTAS GUI incorpora in se la FunTAS GUI, la SinTAS GUI e la SemTAS GUI estendendone<br />
inoltre le funzionalità.<br />
− I componenti software responsabili dell’accesso al GesTALt – OODB e dell’invocazione delle<br />
adeguate funzionalità delle interfacce grafiche <strong>di</strong> FunTAS, SinTAS, SemTAS e ValTAS. Tali<br />
componenti sono denominati in Figura 1 FunTAS Manager, SinTAS Manager, SemTAS<br />
Manager and ValTAS Manager, rispetivamente.<br />
− Il Tree Loader, ovverosia il componente che consente <strong>di</strong> caricare nel GesTALt – OODB<br />
annotazioni sintattiche a costituenti prodotte me<strong>di</strong>ante software de<strong>di</strong>cato e rappresentate<br />
me<strong>di</strong>ante formalismo XML.<br />
− ValTAS Pre-processor. È il componente necessario per la conversione del GestTALt – OODB<br />
dal formato proprietario dei tool <strong>di</strong> annotazione (FunTAS, SinTAS e SemTAS), a quello<br />
utilizzato da ValTAS.<br />
Identificati i vari componenti software, è possibile definire per gran<strong>di</strong> linee l’architettura <strong>di</strong><br />
ognuno dei sottosistemi <strong>di</strong> GesTALt come combinazione <strong>di</strong> uno o più componenti comuni e dei<br />
suoi componenti specializzati, come specificato nella tabella <strong>di</strong> seguito riportata.<br />
Sottosistema Componenti Comuni Componenti Specializzati<br />
SinTAS<br />
FunTAS<br />
GesTALt OODB<br />
XML Loader<br />
Update Loader<br />
Merger<br />
GesTALt OODB<br />
XML Loader<br />
SinTAS GUI<br />
SinTAS Manager<br />
Tree Loader<br />
FunTAS GUI<br />
112
Co<strong>di</strong>ce linea e Tema<br />
Sottosistema Componenti Comuni Componenti Specializzati<br />
SemTAS<br />
ValTAS<br />
Update Loader<br />
Merger<br />
GesTALt OODB<br />
XML Loader<br />
Update Loader<br />
Merger<br />
GesTALt OODB<br />
Wrappr Out<br />
FunTAS Manager<br />
SemTAS GUI<br />
SemTAS Manager<br />
ValTAS GUI<br />
ValTAS Manager<br />
ValTAS Pre-processor<br />
La versione <strong>di</strong> GesTALt rilasciata al termine della linea <strong>di</strong> ricerca 1.3 (versione 3.0) comprende<br />
l’implementazione <strong>di</strong> tutti i componenti software previsti per il sistema sopra elencati. Tra questi,<br />
Merger, ValTAS GUI, ValTAS Manager, ValTAS Pre-processor e Wrapper Out sono stati sviluppati<br />
durante la linea <strong>di</strong> ricerca 1.3.<br />
In conclusione mettiamo in evidenza che GesTALt si presenta all’utenza come un pacchetto <strong>di</strong><br />
applicazioni software (cfr. §7) formata dai tre tool <strong>di</strong> annotazione (SinTAS, FunTAS e SemTAS),<br />
dal tool <strong>di</strong> supporto alla validazione (ValTAS) e dall’insieme dei applicazioni <strong>di</strong> utilità formate da:<br />
− XML Loader<br />
− Update Loader<br />
− Tree Loader<br />
− Merger<br />
− ValTAS Pre-processor<br />
− Wrapper-out<br />
− SSParser.<br />
Per utilizzare FunTAS, SinTAS, SemTAS, XML Loader, Update Loader, Tree Loader e ValTAS<br />
Pre-processr le seguenti risorse hardware e software sono richieste:<br />
− Personal Computer equipaggiato con:<br />
− Processore tipo Intel PII (minimo) o Intel PIII (consigliato)<br />
− RAM 64 MB (minimo)<br />
− Sistema operativo Microsoft ® Windows NT4.0 SP4 (fortemente consigliato) o Microsoft ®<br />
Windows 9x.<br />
− ODI ® PsePRO (object-oriented dbms)<br />
− JDK 1.1.5 o superiore<br />
Per utilizzare ValTAS, Wrapper-out ed SSParser, sono invece richieste le seguenti risorse:<br />
− Personal Computer con:<br />
− Processore tipo Intel PIII<br />
− RAM 128 MB (minimo)<br />
− Sistema operativo Microsoft ® Windows NT4.0 SP4 o Microsoft ® Windows 2000<br />
− ODI ® PsePRO (object-oriented dbms)<br />
− SAXON Parser (versione 5.5.1)<br />
− JDK 1.2 o superiore<br />
113
Co<strong>di</strong>ce linea e Tema<br />
7.3 Funzionalità <strong>di</strong> GesTALt v3.0<br />
Nei paragrafi seguenti si fornisce una sintetica descrizione delle principali funzionalità <strong>di</strong><br />
ValTAS, SSParser e Wrapper-out così come si presentano nella versione 3.0 <strong>di</strong> GesTALt. Si noti<br />
che le funzionalità delle applicazioni <strong>di</strong> supporto agli annotatori sono invariate rispetto a quelle<br />
fornite alla fine della linea <strong>di</strong> ricerca 1.2 (GesTALt v2.0).<br />
7.3.1 ValTAS<br />
ValTAS è l’applicazione fornita dal pacchetto GesTALt a supporto della validazione della<br />
<strong>Treebank</strong> <strong>di</strong> SiTAL, e cioè <strong>di</strong> quell’attività mirata a controllare la correttezza e la consistenza delle<br />
annotazioni sintattico-funzionali, sintattiche a costituenti, nonché <strong>di</strong> quelle semantico-lessicali<br />
prodotte dagli annotatori.<br />
A tale scopo, ValTAS offre la possibilità <strong>di</strong> interrogare l’intera <strong>Treebank</strong> <strong>di</strong> SiTAL in base ad una<br />
qualunque caratteristica o combinazione <strong>di</strong> caratteristiche relative ad uno specifico livello <strong>di</strong><br />
annotazione. Il risultato <strong>di</strong> una interrogazione è l’insieme delle frasi in cui occorre l’annotazione<br />
cercata (Figura 2).<br />
Figura 2 – Interfaccia grafica <strong>di</strong> ValTAS<br />
Una volta recuperato l’insieme delle frasi risultante da una interrogazione utente, ValTAS<br />
permette, per ognuna delle frasi reperite, <strong>di</strong> visualizzare contemporaneamente la rappresentazione<br />
114
Co<strong>di</strong>ce linea e Tema<br />
grafica dei tre livelli <strong>di</strong> annotazione previsti, permettendo così un agevole controllo della<br />
consistenza tra essi (Figura 3).<br />
Figura 3 – Interfaccia grafica <strong>di</strong> ValTAS<br />
In maggior dettaglio, ValTAS consente <strong>di</strong> interrogare la <strong>Treebank</strong> per:<br />
− relazione funzionale, ed in particolare per:<br />
− relazione funzionale generica, specificando uno o più parametri tra quelli in<strong>di</strong>cati in<br />
Figura 4a;<br />
a) b)<br />
115
Co<strong>di</strong>ce linea e Tema<br />
Figura 4 –Parametri <strong>di</strong> interrogazione: relazioni generiche (a) e con testa nominale (b)<br />
− relazione funzionale con testa nominale, specificando uno o più parametri tra quelli<br />
in<strong>di</strong>cati in Figura 4b;<br />
− relazione funzionale con testa verbale, specificando uno o più parametri tra quelli<br />
in<strong>di</strong>cati in Figura 5a;<br />
− relazione funzionale con <strong>di</strong>pendente nominale, specificando uno o più parametri tra<br />
quelli in<strong>di</strong>cati in Figura 5b;<br />
a) b)<br />
Figura 5 – Parametri <strong>di</strong> interrogazione: relazioni con testa verbale (a) e con <strong>di</strong>pendente nominale (b)<br />
− relazione funzionale con <strong>di</strong>pendente verbale, specificando uno o più parametri tra quelli<br />
in<strong>di</strong>cati in Figura 6;<br />
Figura 6 – Parametri <strong>di</strong> interrogazione: relazioni con <strong>di</strong>pendente verbale<br />
− relazione funzionale con testa nominale e <strong>di</strong>pendente nominale, specificando uno o più<br />
parametri tra quelli in<strong>di</strong>cati in Figura 7;<br />
116
Co<strong>di</strong>ce linea e Tema<br />
Figura 7 – Parametri <strong>di</strong> interrogazione: relazioni con testa e <strong>di</strong>pendente nominale<br />
− relazione funzionale con testa verbale e <strong>di</strong>pendente nominale, specificando uno o più<br />
parametri tra quelli in<strong>di</strong>cati in Figura 8;<br />
Figura 8 – Parametri <strong>di</strong> interrogazione: relazioni con testa verbale e <strong>di</strong>pendente nominale<br />
− relazione funzionale con testa nominale e <strong>di</strong>pendente verbale, specificando uno o più<br />
parametri tra quelli in<strong>di</strong>cati in Figura 9;<br />
Figura 9 – Parametri <strong>di</strong> interrogazione: relazioni con testa nominale e <strong>di</strong>pendente verbale<br />
− relazione funzionale con testa verbale e <strong>di</strong>pendente verbale, specificando uno o più<br />
parametri tra quelli in<strong>di</strong>cati in Figura 10;<br />
117
Co<strong>di</strong>ce linea e Tema<br />
Figura 10 – Parametri <strong>di</strong> interrogazione: relazioni con testa e <strong>di</strong>pendente verbale<br />
−<br />
− costituente, ed in particolare per:<br />
− costituente semplice, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura 11a;<br />
− costituente complesso, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura 11b;<br />
a) b)<br />
Figura 11 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />
− unità semantica, ed in particolare per:<br />
− unità semantica generica, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura<br />
12a;<br />
− unità semantica semplice, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura<br />
12b;<br />
a) b)<br />
Figura 12 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />
118
Co<strong>di</strong>ce linea e Tema<br />
− unità semantica complessa, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura<br />
13a;<br />
− unità semantica titolo, specificando uno o più parametri tra quelli in<strong>di</strong>cati in Figura 13b.<br />
a) b)<br />
Figura 13 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />
7.3.2 Wrapper-out<br />
Wrapper-out è l’applicazione del pacchetto GesTALt che consente <strong>di</strong> produrre la<br />
rappresentazione XML della <strong>Treebank</strong> <strong>di</strong> SI-TAL a partire dai dati contenuti nel GesTALt OODB.<br />
I documenti XML prodotti in uscita dal Wrapper-out sono organizzati in maniera fortemente<br />
strutturata: una parte <strong>di</strong> essi rappresenta le informazioni atomiche relative alle annotazioni<br />
morfologiche, sintattico-funzionali, sintattiche a costituenti, semantiche, nonché alle caratteristiche<br />
ortografiche delle singole frasi contenute nella BDA, mentre i rimanenti sono utilizzati per<br />
realizzare le relazioni tra le informazioni atomiche.<br />
Come risultato, i documenti XML <strong>di</strong> uscita del Wrapper-out non presentano alcuna duplicazione<br />
<strong>di</strong> informazione, e possono quin<strong>di</strong> essere facilmente manipolati (me<strong>di</strong>ante XSLt e Xpath, ad<br />
esempio) senza correre il rischio <strong>di</strong> creare inconsistenza.<br />
Di seguito è riportata la specifica (me<strong>di</strong>ante DTD) dei principali documenti XML prodotti dal<br />
Wrapper-out:<br />
File in<strong>di</strong>ce:<br />
<br />
<br />
<br />
<br />
<br />
<br />
119
Co<strong>di</strong>ce linea e Tema<br />
File delle frasi:<br />
<br />
<br />
<br />
<br />
<br />
Annotazione funzionale (per frase):<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
120
Co<strong>di</strong>ce linea e Tema<br />
Annotazione Sintattica a Costituenti (per frase):<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Co<strong>di</strong>ce linea e Tema<br />
tipo CDATA #REQUIRED<br />
commento CDATA #IMPLIED<br />
nota CDATA #IMPLIED<br />
ustid ID #REQUIRED><br />
7.3.3 SSParser<br />
SSParser è l’applicazione del pacchetto GesTALt che permette <strong>di</strong> trasformare un insieme <strong>di</strong><br />
documenti XML contenuti in una <strong>di</strong>rectory sorgente in un nuovo insieme <strong>di</strong> documenti XML, i<br />
quali si <strong>di</strong>fferenziano dai sorgenti per la <strong>di</strong>versa strutturazione dei dati in essi contenuti. In tal modo,<br />
è ad esempio possibile produrre viste (in formato XML) sulla <strong>Treebank</strong> <strong>di</strong> SI-TAL a partire dalla<br />
sua rappresentazione XML.<br />
L’SSParser permette inoltre <strong>di</strong> convertire i documenti XML relativi alla <strong>Treebank</strong> <strong>di</strong> SI-TAL in<br />
documenti HTML, PDF, PS o TXT. A titolo <strong>di</strong> esempio dell’uso <strong>di</strong> SSParser, alla fine della linea <strong>di</strong><br />
ricerca 1.3 sono stati prodotti i file HTML relativi all’intera <strong>Treebank</strong> <strong>di</strong> SI-TAL (Figura 14).<br />
Figura 14 – Interfaccia grafica <strong>di</strong> ValTAS – Parametri <strong>di</strong> interrogazione II<br />
122
Co<strong>di</strong>ce linea e Tema<br />
8 Valutazione<br />
L'attività <strong>di</strong> valutazione è stata svolta utilizzando sia ValTAS, l'interfaccia grafica <strong>di</strong><br />
consultazione della <strong>Treebank</strong>, sia le equivalenti informazioni rese <strong>di</strong>sponibili in modo testuale. In<br />
particolare, le interrogazioni realizzate sulla trascrizione delle annotazioni hanno reso possibile<br />
l'estrazione <strong>di</strong> particolari marcature al fine <strong>di</strong> verificare la presenza o meno <strong>di</strong> situazioni ricorrenti<br />
per cui fosse possibile intervenire nella definizione della nostra grammatica.<br />
Riteniamo che la modalità con cui abbiamo acceduto alle informazioni della <strong>Treebank</strong> possa<br />
essere molto simile, a livello logico, alle modalità con cui sarà possibile accedere alla versione<br />
finale della <strong>Treebank</strong> stessa, quando questa sarà <strong>di</strong>sponibile in formato XML e quin<strong>di</strong> interrogabile<br />
con opportuni linguaggi.<br />
Ve<strong>di</strong>amo nel dettaglio cosa è stato fatto.<br />
Occorre, innanzi tutto, specificare che la grammatica che definisce i legami sintattici dei<br />
componenti <strong>di</strong> una frase si articola in due parti logiche <strong>di</strong>stinte: una per definire le proprietà che<br />
caratterizzano i termini e le loro capacità <strong>di</strong> aggregarsi con altri componenti della frase, ed una per<br />
realizzare la composizione degli elementi al fine <strong>di</strong> ricostruire l'albero sintattico della struttura della<br />
frase da analizzare.<br />
A questa sud<strong>di</strong>visione logica corrisponde una <strong>di</strong>versa localizzazione delle informazioni:<br />
• le proprietà <strong>di</strong> aggregazione sintattica dei termini vengono inserite all'interno del <strong>di</strong>zionario,<br />
nella parte <strong>di</strong> analisi relativa alla sintassi;<br />
• le modalità con cui le proprietà sintattiche dei termini vengono combinate per riempire gli<br />
slot sono definite in un file opportuno, in Prolog.<br />
Il lavoro per reperire le informazioni presenti nella <strong>Treebank</strong> si è articolato secondo il seguente<br />
schema:<br />
1. analisi <strong>di</strong> una errata costruzione dell'albero sintattico <strong>di</strong> copertura <strong>di</strong> una frase, a partire da<br />
una traduzione scorretta<br />
2. in<strong>di</strong>viduazione della corrispondente annotazione all'interno della <strong>Treebank</strong><br />
3. reperimento <strong>di</strong> tutte le strutture analoghe<br />
4. analisi delle informazioni recuperate e inserimento, dove opportuno, <strong>di</strong> nuove informazioni<br />
all'interno della grammatica.<br />
Tali attività sono state svolte sia singolarmente sui tre livelli <strong>di</strong> annotazione (funzionale, a<br />
costituenti, semantico), sia utilizzando la combinazione dei due livelli sintattici o dell'annotazione<br />
semantica con quella funzionale.<br />
Occorre precisare che per la realizzazione del punto 3 appena descritto, per la maggior parte<br />
delle interrogazioni, sono stati elaborati dei programmi. Sono stati utilizzati come linguaggi <strong>di</strong><br />
programmazione il Perl ed il Visual Basic For Application. Il Perl è stato scelto per la sua versatilità<br />
nell'elaborazione <strong>di</strong> stringhe ed è stato impiegato nella fase iniziale del lavoro, fase in cui sono stati<br />
ristrutturati i dati resi <strong>di</strong>sponibili da Certia; il VBA è stato utilizzato durante la fase <strong>di</strong> estrazione<br />
123
Co<strong>di</strong>ce linea e Tema<br />
delle informazioni, per uniformità con la procedura <strong>di</strong> valutazione realizzata durante la linea<br />
precedente.<br />
L'attività sull'annotazione sintattica funzionale è stata più rilevante, grazie alla maggiore quantità<br />
(nel senso <strong>di</strong> espressività) <strong>di</strong> informazioni presenti nella trascrizione testuale della <strong>Treebank</strong>. Ciò ha<br />
permesso <strong>di</strong> realizzare estrazioni che in seguito si potrebbe prevedere <strong>di</strong> realizzare con un<br />
linguaggio <strong>di</strong> interrogazione per l'XML. Non è stato possibile fare altrettanto sulla trascrizione<br />
dell'annotazione a costituenti, per la quale si è potuto utilizzare solo l'annotazione grafica <strong>di</strong> ValTas.<br />
Alcune delle interrogazioni effettuate sono analoghe a quelle che si possono realizzare in ValTas<br />
con il notevole vantaggio <strong>di</strong> poter ottenere risultati espliciti (come elenchi <strong>di</strong> termini, porzioni <strong>di</strong><br />
frasi, ecc.); altre sono più articolate poiché prevedono l'unione logica (OR) delle relazioni o la<br />
verifica della sola presenza <strong>di</strong> un valore <strong>di</strong> un tratto in<strong>di</strong>pendentemente dal valore che questo<br />
assume. In seguito, le interrogazioni realizzate verranno descritte utilizzando, per quanto riguarda<br />
l'annotazione sintattica funzionale, lo stesso tipo <strong>di</strong> notazione presente nella trascrizione realizzata<br />
da Certia, specificando solo i campi influenti ai fini dell'interrogazione e tralasciando quelli i cui<br />
valori non sono stati ritenuti interessanti nello specifico contesto.<br />
Nel seguito verranno dettagliate le operazioni compiute. Per quanto riguarda le attività <strong>di</strong><br />
mo<strong>di</strong>fica svolte all'interno della grammatica <strong>di</strong> PeTra, verrà illustrato il tipo <strong>di</strong> informazione inserito<br />
e se ne in<strong>di</strong>cherà la finalità, tralasciando il formalismo utilizzato al fine <strong>di</strong> consentire una più facile<br />
lettura. Si sottolinea che, in questa attività, anche la mo<strong>di</strong>fica più piccola comporta una serie <strong>di</strong><br />
operazioni che non verranno descritte ad ogni passo, ma che sono in<strong>di</strong>spensabili per evitare <strong>di</strong><br />
introdurre rumore sul lavoro già realizzato. Il formalismo della grammatica, infatti, si basa<br />
sull'applicazione <strong>di</strong> proprietà comuni a categorie <strong>di</strong> termini, richieste dalla modalità <strong>di</strong><br />
funzionamento del nostro sistema linguistico e identificate per rispondere a specifiche esigenze<br />
della traduzione; non sempre tali categorie si ritrovano nella grammatica descrittiva tra<strong>di</strong>zionale.<br />
Questo significa che la minima mo<strong>di</strong>fica alle informazioni introdotte potrebbe causare effetti<br />
collaterali a catena, per scongiurare i quali occorre realizzare numerose verifiche sia su frasi<br />
contenenti la situazione su cui si sta lavorando, sia su frasi simili per le quali valgono regole<br />
<strong>di</strong>verse. Infine, la verifica conclusiva viene realizzata su porzioni <strong>di</strong> testo generico. Solo a questo<br />
punto è possibile passare alla mo<strong>di</strong>fica successiva. Si può quin<strong>di</strong> dedurre la mole <strong>di</strong> lavoro che<br />
anche la mo<strong>di</strong>fica più banale comporta.<br />
Come già accennato, siamo partiti analizzando le frasi mal tradotte da PeTra Word. Tra queste<br />
abbiamo analizzato quelle per cui la cattiva traduzione era dovuta ad una errata costruzione<br />
dell'albero sintattico nella parte <strong>di</strong> analisi dell'italiano. Abbiamo, quin<strong>di</strong>, cercato <strong>di</strong> capire il<br />
problema e <strong>di</strong> vedere come veniva risolta l'annotazione nella <strong>Treebank</strong>. I paragrafi che seguono<br />
descrivono le problematiche in<strong>di</strong>viduate, i criteri con cui sono state prelevate le informazioni nella<br />
<strong>Treebank</strong> e gli interventi <strong>di</strong> correzione realizzati.<br />
Gli interventi sono stati essenzialmente <strong>di</strong> 3 tipi: sulla parte <strong>di</strong> analisi del <strong>di</strong>zionario, sulla<br />
grammatica e sul transfer.<br />
124
Co<strong>di</strong>ce linea e Tema<br />
8.1 Mo<strong>di</strong>fiche al <strong>di</strong>zionario<br />
8.1.1 Derivanti dalla sintassi<br />
8.1.1.1 Reggenze<br />
Una delle maggiori <strong>di</strong>fficoltà in un sistema <strong>di</strong> traduzione automatica è l'in<strong>di</strong>viduazione delle<br />
corrette <strong>di</strong>pendenze <strong>di</strong> gruppi nominali introdotti da preposizione, <strong>di</strong>pendenti sia da verbi che da<br />
sostantivi. L'esplicitazione delle reggenze tipiche porta ad una migliore costruzione dell'albero <strong>di</strong><br />
copertura della frase. Abbiamo quin<strong>di</strong> in<strong>di</strong>viduato nella <strong>Treebank</strong> le reggenze presenti ed inserito<br />
nel nostro sistema quelle mancanti.<br />
8.1.1.2 Testa nominale<br />
Durante la costruzione dell'albero <strong>di</strong> copertura <strong>di</strong> una frase, PeTra cerca <strong>di</strong> in<strong>di</strong>viduare le corrette<br />
<strong>di</strong>pendenze aggregando i componenti presenti. Nel caso <strong>di</strong> un sintagma introdotto da preposizione,<br />
la tendenza più ricorrente è quella <strong>di</strong> far <strong>di</strong>pendere tale gruppo da una forma verbale, a meno che<br />
non sia presente un sostantivo per il quale la preposizione in esame costituisca una reggenza tipica o<br />
si sia in presenza <strong>di</strong> un complemento <strong>di</strong> specificazione (introdotto dalla preposizione <strong>di</strong>).<br />
L'esplicitazione nel <strong>di</strong>zionario delle reggenze tipiche dei sostantivi aiuta dunque nella costruzione<br />
dell'albero. Questo tipo <strong>di</strong> informazione è, però, <strong>di</strong>fficilmente reperibile in <strong>di</strong>zionari cartacei e/o<br />
tra<strong>di</strong>zionali.<br />
Abbiamo quin<strong>di</strong> constatato che al nostro sistema mancava spesso la corretta in<strong>di</strong>viduazione <strong>di</strong> un<br />
gruppo assimilabile a quello che nell'annotazione a costituenti è identificato come un SN, al cui<br />
interno è presente un SP (SPD o SPDA).<br />
In<strong>di</strong>viduato il problema, abbiamo deciso <strong>di</strong> ampliare la casistica appena descritta compilando un<br />
programma <strong>di</strong> interrogazione della trascrizione testuale dell'annotazione funzionale per estrarre tutte<br />
le teste e gli introduttori dei <strong>di</strong>pendenti che sod<strong>di</strong>sfacevano quanto segue:<br />
Tipo relazione: mod | arg<br />
Testa nominale:<br />
POS: S<br />
* :<br />
POS <strong>di</strong>pendente: S | A | N | V | P*<br />
Introduttore <strong>di</strong>pendente: not "" 3<br />
Il programma <strong>di</strong> interrogazione ha quin<strong>di</strong> restituito un elenco <strong>di</strong> sostantivi con le relative<br />
reggenze presenti nel corpus. Tali coppie <strong>di</strong> valori sono state esaminate manualmente al fine <strong>di</strong><br />
eliminare quelle con uso spora<strong>di</strong>co: le rimanenti sono andate ad arricchire le entrate del <strong>di</strong>zionario<br />
3 Con introduttore: not "" si intende che il valore dell'introduttore deve essere una stringa <strong>di</strong>versa dalla stringa vuota,<br />
della quale non viene però specificato il valore. Ricor<strong>di</strong>amo che, in informatica, per stringa si intende una qualunque<br />
sequenza <strong>di</strong> caratteri alfanumerici<br />
125
Co<strong>di</strong>ce linea e Tema<br />
corrispondenti alle "teste" in<strong>di</strong>viduate, con l'esplicitazione <strong>di</strong> uno slot specifico per il gruppo<br />
preposizionale. In questa maniera sono state in<strong>di</strong>viduate reggenze tipiche come<br />
• incontro con<br />
• integrazione tra<br />
• simposio su<br />
mentre sono state scartate presenze del tipo:<br />
• cre<strong>di</strong>to a<br />
• facilitazione per.<br />
8.1.1.3 Testa verbale<br />
Come spiegato al punto precedente, i complementi in<strong>di</strong>retti vengono <strong>di</strong> preferenza legati alla<br />
forma verbale presente. Anche in questa situazione, però, risulta utile l'esplicitazione delle<br />
reggenze: in presenza <strong>di</strong> più forme verbali aiuta a <strong>di</strong>scriminare la corretta <strong>di</strong>pendenza.<br />
Anche in questo caso sono state rilevate, nei costituenti, delle annotazioni non sempre<br />
in<strong>di</strong>viduate dagli alberi generati in PeTra, come quella della giusta attribuzione <strong>di</strong> un COMP* al<br />
corrispondente IBAR.<br />
E' stato quin<strong>di</strong> realizzato un programma, analogo al precedente, per realizzare un'interrogazione<br />
sulle relazioni annotate nel funzionale secondo i seguenti criteri:<br />
Tipo relazione: *<br />
Testa verbale:<br />
POS: V<br />
Dipendente nominale:<br />
POS <strong>di</strong>pendente: S | N | P* | A | D*<br />
Introduttore <strong>di</strong>pendente: not""<br />
che hanno portato all'in<strong>di</strong>viduazione <strong>di</strong> situazioni come<br />
• riunire in<br />
• stabilizzare su.<br />
Anche questo secondo elenco è stato attentamente esaminato al fine <strong>di</strong> eliminare le occorrenze<br />
spora<strong>di</strong>che: le rimanenti sono state inserite nella parte <strong>di</strong> informazioni sintattiche presenti nel<br />
<strong>di</strong>zionario.<br />
8.1.1.4 Espressioni polilessicali<br />
Come era facile supporre, il contesto specialistico in cui si inseriscono i testi selezionati può<br />
comportare un uso particolare dell'italiano, o comunque <strong>di</strong>verso da quello presente nei testi <strong>di</strong> tipo<br />
informatico da noi più <strong>di</strong> frequente esaminati. Questo portava il nostro sistema <strong>di</strong> traduzione a mal<br />
interpretare la costruzione della frase o a tradurre letteralmente sequenze <strong>di</strong> parole aventi traduzioni<br />
specifiche. In relazione a tali usi e alle relative traduzioni in Inglese, abbiamo esaminato i risultati<br />
126
Co<strong>di</strong>ce linea e Tema<br />
delle interrogazioni che seguono, realizzate con un programma in grado <strong>di</strong> estrarre le terminologie<br />
presenti, a partire dalla trascrizione dell'annotazione funzionale.<br />
Ricor<strong>di</strong>amo, come già descritto nelle precedenti relazioni, che nel nostro sistema si intendono<br />
come espressioni polilessicali tutte quelle sequenze <strong>di</strong> termini che necessitano <strong>di</strong> una particolare<br />
traduzione o che occorre bloccare per evitare <strong>di</strong> mal interpretare la costruzione dell'albero. Tali<br />
espressioni, inoltre, hanno <strong>di</strong>verse caratterizzazioni e non vengono trattate sempre nella stessa<br />
maniera, come:<br />
a. espressioni polilessicali invariabili (es. made in Italy)<br />
b. espressioni polilessicali con sequenza costante ma con i singoli componenti che ammettono<br />
la flessione (es. bilanci/io provvisori/io)<br />
c. espressioni polilessicali che possono presentarsi con dei mo<strong>di</strong>ficatori, vincolate solo dalla<br />
relazione sintattica (es. assestare [velocemente] i conti 4 )<br />
Le tre situazioni vengono risolte in maniera <strong>di</strong>versa:<br />
a. inserendo una entrata specifica nel <strong>di</strong>zionario<br />
b. aggiungendo al termine reggente una nuova analisi, che scatti nei casi in cui il termine sia<br />
accompagnato dal resto della sequenza<br />
c. come <strong>di</strong>sambiguazione basata sul valore dei suoi complementi<br />
Nel seguito verranno descritte le situazioni in<strong>di</strong>viduate e gli interventi realizzati, ma eviteremo <strong>di</strong><br />
andare nel dettaglio delle scelte implementative per evitare <strong>di</strong> appesantire il <strong>di</strong>scorso.<br />
8.1.1.5 Dipendenza in<strong>di</strong>retta con testa nominale<br />
Per estrarre l'elenco dei complementi in<strong>di</strong>retti retti da testa nominale, abbiamo scritto un<br />
programma che in<strong>di</strong>vidua le annotazioni sintattiche funzionali caratterizzate da:<br />
Tipo relazione: mod | arg<br />
Testa nominale:<br />
POS: S<br />
Dipendente nominale:<br />
POS <strong>di</strong>pendente: S<br />
Introduttore <strong>di</strong>pendente: not""<br />
e che restituisce la sequenza:<br />
lemma_testa introduttore lemma_<strong>di</strong>pendente<br />
4 assestarsi si traduce genericamente con to settle in, mentre assestare i conti <strong>di</strong>venta to balance the account<br />
127
Co<strong>di</strong>ce linea e Tema<br />
In questo modo abbiamo ottenuto un elenco piuttosto consistente, che è stato esaminato<br />
manualmente al fine <strong>di</strong> estrarre le potenziali espressioni "da bloccare". Nella scelta ci siamo fatti<br />
guidare soprattutto dalla corrispondente traduzione in inglese. Così procedendo abbiamo<br />
in<strong>di</strong>viduato situazioni come<br />
• azionista <strong>di</strong> riferimento<br />
• calo delle ven<strong>di</strong>te<br />
• posto <strong>di</strong> lavoro<br />
• controllo del traffico<br />
L'uso <strong>di</strong> un programma in grado <strong>di</strong> estrarre l'elenco delle potenziali espressioni polilessicali ha<br />
permesso <strong>di</strong> lavorare più agevolmente, grazie alla restituzione ad un elenco da esaminare. Per<br />
ciascun elemento dell'elenco, è stato poi deciso l'intervento più opportuno da realizzare (secondo<br />
quanto descritto ai punti a., b., c.), esaminando tutti i possibili usi per evitare che vengano bloccate<br />
situazioni non univocamente interpretabili. Si rimanda all'esempio fornito al documento precedente<br />
circa l'esame <strong>di</strong> per cui (congiunzione polilessicale, ma anche preposizione seguita da pronome).<br />
In questo modo, per:<br />
• calo delle ven<strong>di</strong>te è stata aggiunta, all'entrata calo, un'analisi per bloccare la sequenza calo/i<br />
delle ven<strong>di</strong>te<br />
• apertura del mercato è stata inserita, in corrispondenza <strong>di</strong> apertura, una specifica traduzione<br />
nel caso in cui il lemma sia mo<strong>di</strong>ficato da un complemento <strong>di</strong> specificazione riempito da<br />
mercato (o da una sua flessione)<br />
8.1.1.6 Dipendenza in<strong>di</strong>retta con testa verbale<br />
Per ritrovare le espressioni rette da testa verbale, si è proceduto in maniera analoga al punto<br />
precedente, utilizzando un programma che agisse in maniera simile, con criteri <strong>di</strong> ricerca<br />
leggermente <strong>di</strong>versi:<br />
Tipo relazione: obl | mod | ogg_i<br />
Testa verbale:<br />
POS: V<br />
Dipendente nominale:<br />
POS <strong>di</strong>pendente: S<br />
Introduttore <strong>di</strong>pendente: not""<br />
ottenendo un elenco del tipo:<br />
lemma_testa introduttore lemma_<strong>di</strong>pendente.<br />
Anche questo elenco è stato analizzato secondo i criteri visti sopra, per eliminare le sequenze<br />
superflue e, per ciascuna sequenza rimasta, è stata scelta la strategia più opportuna per l'inserimento<br />
nel <strong>di</strong>zionario. Alcuni esempi delle sequenze trovate sono:<br />
• riunirsi in seduta<br />
128
Co<strong>di</strong>ce linea e Tema<br />
• giungere a un'intesa<br />
8.1.1.7 Dipendenza <strong>di</strong>retta con testa nominale<br />
Un'altra ricerca realizzata ha portato all'in<strong>di</strong>viduazione <strong>di</strong> mo<strong>di</strong>ficatori con apposizione.<br />
L'interrogazione è stata realizzata con i seguenti criteri:<br />
Tipo relazione: not(cong)<br />
Testa nominale:<br />
POS: S<br />
Dipendente nominale:<br />
POS <strong>di</strong>pendente: S<br />
Introduttore <strong>di</strong>pendente: ""<br />
Abbiamo così ottenuto un elenco composto da coppie <strong>di</strong> sostantivi. Anche in questo caso si è<br />
proceduto ad una scrematura guidata dal senso e dalla traduzione in lingua inglese. Le coppie<br />
rimaste sono state inserite nel <strong>di</strong>zionario utilizzando sempre gli stessi criteri sin qui descritti. Tra<br />
esse abbiamo, per esempio:<br />
• forza lavoro<br />
• fine anno<br />
8.1.1.8 Dipendenza <strong>di</strong>retta con testa verbale<br />
In quest'ultimo caso relativo alle espressioni polilessicali, abbiamo cercato <strong>di</strong> in<strong>di</strong>viduare i verbi<br />
che in presenza <strong>di</strong> particolari complementi oggetti vengono tradotti in modo i<strong>di</strong>omatico. Abbiamo<br />
quin<strong>di</strong> realizzato un programma in grado <strong>di</strong> estrarre una sequenza <strong>di</strong> verbi transitivi con i relativi<br />
complementi oggetti a partire da un'interrogazione del tipo:<br />
Tipo relazione: ogg_d<br />
Testa verbale:<br />
POS: V<br />
SFEAT: V*T 5<br />
Dipendente nominale:<br />
POS <strong>di</strong>pendente: S<br />
Introduttore <strong>di</strong>pendente: ""<br />
Sono, così, state in<strong>di</strong>viduate tutte le occorrenze dei complementi <strong>di</strong>retti presenti nella parte <strong>di</strong><br />
corpus selezionato. Anche questa volta, l'elenco ottenuto è stato analizzato al fine <strong>di</strong> in<strong>di</strong>viduare i<br />
<strong>di</strong>pendenti che fanno assumere al verbo reggente, o alla composizione con esso, una particolare<br />
5 con V*T si intendono tutte le stringhe che iniziano con V, terminano con T, e al cui interno possono essere presenti<br />
zero o più caratteri. Abbiamo utilizzato questo simbolismo per evitare <strong>di</strong> elencare tutte le situazioni come: VGT, VIRT,<br />
VT,…, relative a verbi transitivi.<br />
129
Co<strong>di</strong>ce linea e Tema<br />
traduzione. Le forme ottenute sono state inserite come espressioni polilessicali, sempre utilizzando i<br />
criteri già esposti.<br />
Esempi <strong>di</strong> espressioni ottenute sono:<br />
• accogliere gli accantonamenti<br />
• accusare una <strong>di</strong>fficoltà<br />
• fare presa.<br />
In particolare in questo caso, la maggior parte degli inserimenti sono stati realizzati secondo le<br />
modalità della <strong>di</strong>sambiguazione, come illustrato al punto c. all'inizio <strong>di</strong> questo paragrafo. Ciò è<br />
dovuto al fatto che la relazione che lega un verbo al suo complemento oggetto verte su leggi che<br />
possono essere in<strong>di</strong>viduate con criteri sintattici; questo permette la presenza <strong>di</strong> altri termini<br />
interme<strong>di</strong>, come gli avverbi.<br />
Ad esempio, per riprendere i casi riportati sopra, la traduzione <strong>di</strong> accusare nel contesto descritto,<br />
non deve essere <strong>di</strong>versa se la frase viene costruita come:<br />
egli ha accusato sempre molte <strong>di</strong>fficoltà.<br />
8.1.1.9 Specifiche consultazioni<br />
L'utilizzo della <strong>Treebank</strong> ha portato a ricerche sistematiche, come quelle appena descritte, ma<br />
anche a ricerche mirate alle singole costruzioni, alcune delle quali vengono descritte in questo<br />
paragrafo. Tra le più significative, abbiamo due ricerche non previste a priori, in<strong>di</strong>spensabili, però,<br />
per il corretto funzionamento dell'analisi dell'italiano: la corretta impostazione dell'ausiliare in verbi<br />
intransitivi, e la molteplicità delle accezione per una stessa variante grafica.<br />
Per costruire correttamente l'albero <strong>di</strong> analisi della frase italiana, in PeTra sono esplicitati, per i<br />
verbi intransitivi, gli ausiliari necessari per la costruzione dei tempi composti. Analizzando alcune<br />
traduzioni ci siamo accorti che in alcuni verbi tale informazione non era corretta. Abbiamo quin<strong>di</strong><br />
scritto un nuovo programma <strong>di</strong> interrogazione del documento contenente la trascrizione<br />
dell'annotazione funzionale al fine <strong>di</strong> in<strong>di</strong>viduare i lemmi dei verbi aventi i seguenti tratti:<br />
Tipo relazione: *<br />
[ Testa Verbale:<br />
POS: V<br />
SFEAT: VGPROG | VIIN | VIN | VGIN | VIRIN | VPPIN | VPRIN<br />
Ausiliare: avere<br />
]<br />
or<br />
[ Dipendente Verbale:<br />
POS: V<br />
SFEAT: VGPROG | VIIN | VIN | VGIN | VIRIN | VPPIN | VPRIN<br />
Ausiliare: avere<br />
]<br />
Con l'elenco dei lemmi così ottenuto, abbiamo eseguito una verifica manuale delle informazioni<br />
riportate nel nostro <strong>di</strong>zionario e realizzato gli opportuni aggiustamenti.<br />
130
Co<strong>di</strong>ce linea e Tema<br />
Questo è stato un esame imprevisto della <strong>Treebank</strong>, che ci ha permesso <strong>di</strong> reperire informazioni<br />
importanti: l'uso della <strong>Treebank</strong> si <strong>di</strong>mostra quin<strong>di</strong> versatile e aperto ad analisi inattese.<br />
Sempre analizzando le frasi tradotte, ci siamo resi conto della presenza <strong>di</strong> qualche problema<br />
nell'analisi <strong>di</strong> alcuni lemmi: nel nostro <strong>di</strong>zionario, essi non erano presenti con tutte le accezioni<br />
previste dall'italiano. Ad esempio, in PeTra romanzo era presente solo come sostantivo e non come<br />
aggettivo (filologia romanza).<br />
Una situazione analoga si è presentata con proprio: utilizziamo questo esempio per comprendere<br />
il tipo <strong>di</strong> lavoro realizzato.<br />
Abbiamo, come prima cosa, estratto tutte le annotazioni coinvolgenti il lemma in esame,<br />
in<strong>di</strong>pendentemente dalla forma e dal tipo <strong>di</strong> relazione. Ci siamo quin<strong>di</strong> resi conto dell'assenza<br />
dell'analisi <strong>di</strong> proprio come aggettivo possessivo, a causa della quale non venivano costruite<br />
relazioni che nella <strong>Treebank</strong> abbiamo in<strong>di</strong>viduato come:<br />
Tipo relazione: mod<br />
Testa nominale:<br />
POS: S<br />
Dipendente:<br />
Lemma : proprio<br />
POS : AP<br />
L'estrazione <strong>di</strong> tutte le classificazioni <strong>di</strong> proprio sono state invece estratte con l'interrogazione:<br />
Tipo relazione: *<br />
[ Testa *:<br />
Lemma: proprio<br />
]<br />
or<br />
[ Dipendente *:<br />
Lemma : proprio<br />
]<br />
8.1.2 Derivanti dalla semantica<br />
8.1.2.1 Inserimento dei semantic type <strong>di</strong>sponibili<br />
Le mo<strong>di</strong>fiche al <strong>di</strong>zionario derivanti dall'analisi semantica hanno comportato l'inserimento <strong>di</strong><br />
numerosi semantic type. In PeTra, i semantic type vengono utilizzati per determinare la corretta<br />
traduzione <strong>di</strong> un termine quando questo è messo in relazione con un altro appartenente ad una<br />
particolare categoria. Ad esempio:<br />
• versare si può tradurre to pour<br />
ma se è seguito da un complemento oggetto <strong>di</strong> tipo money si traduce to deposit<br />
Il nostro lavoro si è articolato nei seguenti passi:<br />
131
Co<strong>di</strong>ce linea e Tema<br />
• in<strong>di</strong>viduazione dei termini annotati semanticamente nella <strong>Treebank</strong><br />
• in<strong>di</strong>viduazione del senso corrispondente all'interno <strong>di</strong> ItalWordNet<br />
• in<strong>di</strong>viduazione del semantic type corrispondente in PeTra<br />
• inserimento del semantic type nel <strong>di</strong>zionario, nella parte <strong>di</strong> analisi relativa al lemma<br />
• verifica del rispetto della corretta traduzione in relazione ai termini in cui è utilizzato.<br />
Abbiamo inserito il semantic type ad un numero consistente <strong>di</strong> lemmi presenti e, come ci si<br />
poteva aspettare sulla base del corpus selezionato, quello più utilizzato è stato money.<br />
8.1.2.2 Nuovo semantic type<br />
Il lavoro effettuato ha portato, oltre all'inserimento dei semantic type già previsti in PeTra,<br />
all'in<strong>di</strong>viduazione <strong>di</strong> un nuovo senso, il cui utilizzo, a partire dalle informazioni contenute in<br />
ItalWordNet, è stato me<strong>di</strong>ato dalle necessità della traduzione.<br />
Il nuovo semantic type è in relazione al senso qualità <strong>di</strong> ItalWordNet, al quale siamo arrivati<br />
utilizzando la catena degli iperonimi delle forme che an<strong>di</strong>amo a descrivere. Ci sono infatti termini<br />
(come coraggio, importanza, esperienza, …) che in italiano si legano al verbo avere (avere<br />
coraggio, avere importanza, …) ma che in inglese vengono retti dal verbo essere (to be brave, to be<br />
important). Abbiamo quin<strong>di</strong> inserito un nuovo semantic type nella gerarchia <strong>di</strong> PeTra, denotando<br />
con esso i termini sopra elencati, e aggiungendo una nuova <strong>di</strong>sambiguazione in corrispondenza<br />
dell'entrata <strong>di</strong> avere quando è seguito da un termine appartenente a quella categoria.<br />
Naturalmente c'è da osservare che non tutti i termini che sono qualità verranno classificati con il<br />
nuovo semantic type: anche in questo caso le informazioni estratte vengono filtrate da criteri <strong>di</strong><br />
necessità vincolati alla logica della traduzione. Ne segue che le qualità che non richiedono il to be<br />
non rientreranno in questa nostra categoria.<br />
8.1.2.3 Derivanti dalla semantica in combinazione con la sintassi<br />
Partendo dall'annotazione semantica, sono state in<strong>di</strong>viduate tutte le parole aventi più <strong>di</strong> un senso<br />
nel corpus e tra queste, quelle aventi una <strong>di</strong>versa traduzione <strong>di</strong>pendente dal significato. Di queste<br />
sono state considerate tutte le frasi in cui sono presenti e <strong>di</strong> esse sono state analizzate le annotazione<br />
sintattiche con ValTas: ciò ha portato all'in<strong>di</strong>viduazione <strong>di</strong> costruzioni che caratterizzano la parola<br />
in relazione al significato. Ad esempio<br />
• articolo: se è mo<strong>di</strong>ficato da un numerale car<strong>di</strong>nale in<strong>di</strong>vidua una parte <strong>di</strong> una legge<br />
Tale informazione è stata inserita nel <strong>di</strong>zionario come <strong>di</strong>sambiguazione in corrispondenza<br />
dell'entrata articolo, che ammetterà così una specifica costruzione ed una opportuna traduzione.<br />
8.2 Mo<strong>di</strong>fiche alla grammatica<br />
In questo paragrafo vengono descritti gli interventi più significativi realizzati sulla grammatica,<br />
sud<strong>di</strong>visi in base alla tipologia delle regole coinvolte. Le regole della grammatica, infatti, non sono<br />
tutte dello stesso tipo: alcune si occupano <strong>di</strong> costruire l'albero <strong>di</strong> copertura, altre <strong>di</strong> cancellare<br />
132
Co<strong>di</strong>ce linea e Tema<br />
l'alternativa <strong>di</strong> un albero riconosciuto come mal costruito, ed altre <strong>di</strong> attribuire una probabilità ad<br />
una costruzione in<strong>di</strong>viduata.<br />
8.2.1 Raffinamento delle regole per la costruzione dell'albero<br />
In questo paragrafo vengono descritti alcuni degli interventi effettuati sulle regole per migliorare<br />
la capacità del sistema <strong>di</strong> traduzione <strong>di</strong> costruire l'albero <strong>di</strong> copertura per l'analisi della frase<br />
italiana. La mancata, o errata, costruzione dell'albero infatti determina una errata interpretazione<br />
delle relazioni esistenti tra gli elementi della frase e, conseguentemente, porta ad una traduzione<br />
scorretta o, in certi casi, totalmente errata.<br />
8.2.1.1 Participi interpretati come aggettivi<br />
Questo è un problema <strong>di</strong> omografi: nella lingua italiana, molti aggettivi sono anche participi<br />
passati <strong>di</strong> verbi e spesso la <strong>di</strong>stinzione della corretta POS è strettamente <strong>di</strong>pendente dalla semantica<br />
della frase. Tuttavia dobbiamo osservare che nell'ottica <strong>di</strong> un sistema <strong>di</strong> traduzione automatica<br />
questa <strong>di</strong>stinzione <strong>di</strong>venta rilevante solo quando le traduzioni dell'aggettivo e del participio<br />
corrispondente sono <strong>di</strong>verse (es. pulito agg. clean, p.p. cleaned). La scelta che è stata fatta<br />
all'interno del <strong>di</strong>zionario <strong>di</strong> PeTra è stata quella <strong>di</strong> inserire il lemma aggettivale solo per gli<br />
omografi aventi <strong>di</strong>versa traduzione, così da non duplicare inutilmente gli alberi <strong>di</strong> analisi. Per questi<br />
ultimi casi si pone il problema <strong>di</strong> in<strong>di</strong>viduare le regole sintattiche per riuscire, dove possibile, a<br />
<strong>di</strong>stinguere le due accezioni. La grammatica <strong>di</strong> PeTra cerca <strong>di</strong> <strong>di</strong>scriminare la corretta analisi<br />
facendo uso <strong>di</strong> opportune regole <strong>di</strong> cancellazione. Ad esempio, in combinazione con gli ausiliari<br />
viene scelto il lemma verbale. Tale scelta si compie "cancellando" l'alternativa contenente il lemma<br />
aggettivale. Se invece la forma era in combinazione con un sostantivo, veniva scelto il lemma<br />
aggettivale: questo provocava il mancato aggancio <strong>di</strong> alcuni tipi <strong>di</strong> mo<strong>di</strong>ficatori da essa <strong>di</strong>pendenti,<br />
a causa della non completezza delle regole <strong>di</strong> PeTra.<br />
Una frase in cui si presentava questo tipo <strong>di</strong> problema era:<br />
[…] lungo un orizzonte in<strong>di</strong>cato convenzionalmente in due anni.<br />
Con le interrogazioni realizzate sull'annotazione sintattica della <strong>Treebank</strong> siamo riusciti ad<br />
ampliare questa casistica.<br />
Abbiamo realizzato la seguente ricerca:<br />
Tipo relazione: mod<br />
Testa verbale<br />
POS: V<br />
SFEAT: PPAS<br />
Dipendente *:<br />
Introduttore: not""<br />
Esprimendo in maniera meno sintetica, rispetto al formalismo descritto, i risultati ottenuti, si può<br />
<strong>di</strong>re che siamo giunti alla conclusione che in presenza <strong>di</strong> complementi in<strong>di</strong>retti retti da una forma<br />
che può essere sia aggettivo che verbo, occorre privilegiare il verbo scrivendo opportune regole <strong>di</strong><br />
cancellazione per l'aggettivo.<br />
133
Co<strong>di</strong>ce linea e Tema<br />
8.2.1.2 Quanto<br />
Abbiamo notato l'incapacità della nostra grammatica <strong>di</strong> legare quanto, come pronome relativo,<br />
ad un participio passato. Per risolvere il problema abbiamo analizzato le due annotazioni sintattiche<br />
e rilevato quanto segue.<br />
In una frase come:<br />
Contrariamente a quanto avvenuto nelle altre ven<strong>di</strong>te […]<br />
• nell'annotazione a costituenti, la parte sottolineata risulta essere un SV3<br />
• nell'annotazione funzionale, esiste una relazione <strong>di</strong> tipo Mod nella quale quanto è la testa con<br />
il <strong>di</strong>pendente verbale avvenire.<br />
Nella grammatica <strong>di</strong> PeTra non erano previste regole per legare il pronome quanto ad un<br />
participio passato. Inserita questa mo<strong>di</strong>fica, il sottoalbero <strong>di</strong> copertura <strong>di</strong> quella porzione <strong>di</strong> frase è<br />
stato costruito correttamente.<br />
8.2.1.3 Lo - pre<strong>di</strong>cato preposto<br />
Di solito in italiano, a meno <strong>di</strong> casi particolari, i pre<strong>di</strong>cati dei verbi copulativi seguono la forma<br />
verbale, tranne alcune eccezioni (es.: "non lo è"). Eseguendo interrogazioni del tipo:<br />
Tipo relazione: pred<br />
Testa verbale:<br />
Dipendente *:<br />
e verificando le costruzioni con la grafica <strong>di</strong> ValTas, abbiamo in<strong>di</strong>viduato la presenza <strong>di</strong> lo come<br />
pre<strong>di</strong>cato preposto. E' quin<strong>di</strong> stata inserita la possibilità <strong>di</strong> ammettere anche questa costruzione<br />
all'interno della grammatica <strong>di</strong> PeTra.<br />
Per completare questa mo<strong>di</strong>fica è stato necessario l'inserimento <strong>di</strong> opportune regole <strong>di</strong> transfer,<br />
come verrà descritto nel paragrafo relativo.<br />
8.2.1.4 Aggettivi come incisi<br />
Alla grammatica <strong>di</strong> PeTra mancava la possibilità <strong>di</strong> associare ad un sostantivo un aggettivo nel<br />
caso in cui questo fosse espresso come inciso (scritto tra virgole) e seguito da altri complementi<br />
in<strong>di</strong>retti, come in frasi del tipo:<br />
[…] dopo il restyling del gruppo, necessario per […,…]<br />
La possibilità <strong>di</strong> ammettere costruzioni <strong>di</strong> questo tipo è stata dedotta analizzando entrambe le<br />
annotazioni sintattiche:<br />
• nel funzionale, esiste una relazione <strong>di</strong> tipo mod tra il sostantivo e l'aggettivo che regge<br />
l'inciso (parte sottolineata, nell'esempio)<br />
134
Co<strong>di</strong>ce linea e Tema<br />
• nei costituenti, l'inciso è denotato come SA, al cui livello più alto è presente un A (il<br />
<strong>di</strong>pendente mo<strong>di</strong>ficatore della relazione del funzionale), che con il sostantivo S a cui si<br />
riferisce forma un SN.<br />
Ammettendo la possibilità <strong>di</strong> avere costruzioni aggettivali <strong>di</strong> questo tipo, i sottoalberi <strong>di</strong><br />
copertura vengono costruiti correttamente.<br />
8.2.1.5 Quest'ultimo<br />
E' stata ampliata la regola che lega un determiner (articolo, aggettivo <strong>di</strong>mostrativo,…) ad un<br />
aggettivo sostantivato. In PeTra non venivano riconosciute, infatti, le sequenze del tipo:<br />
aggettivo <strong>di</strong>mostrativo + aggettivo (sostantivato)<br />
come quest'ultimo. Occorre aggiungere che in PeTra, per convenzione, non viene inserita la<br />
classificazione <strong>di</strong> sostantivo per quei lemmi che sono essenzialmente aggettivi: il loro uso come<br />
sostantivi viene riconosciuto e quin<strong>di</strong> generato in fase <strong>di</strong> analisi.<br />
Nell'annotazione sintattica funzionale, tale relazione mancante è stata in<strong>di</strong>viduata con<br />
l'interrogazione seguente:<br />
Tipo relazione: mod<br />
Testa nominale:<br />
Lemma: ultimo<br />
POS: S<br />
Dipendente:<br />
Lemma : questo<br />
POS : DD<br />
MFEAT: MFEAT(testa) 6<br />
ed inserita come nuova regola che coinvolge le due categorie <strong>di</strong> termini.<br />
8.2.1.6 Prima ancora che<br />
La sequenza prima ancora che non veniva in<strong>di</strong>viduata in PeTra. In frasi del tipo:<br />
[…] era gia' stato concordato prima ancora che si svolgessero le elezioni.<br />
non veniva riconosciuto che tale costruzione costituisce l'introduttore <strong>di</strong> una subor<strong>di</strong>nata.<br />
Anche in questo caso sono state analizzate entrambe le annotazioni sintattiche:<br />
• nei costituenti: la parte sottolineata è annotata come FS, cioè subor<strong>di</strong>nata con introduttore;<br />
6 Questa scrittura vuol significare che il valore <strong>di</strong> MFEAT del <strong>di</strong>pendente deve essere uguale a quello <strong>di</strong> MFEAT<br />
della testa<br />
135
Co<strong>di</strong>ce linea e Tema<br />
• nel funzionale: sono presenti le seguenti relazioni:<br />
mod(ancora, prima)<br />
mod(concordare, ancora)<br />
arg(concordare, svolgere).<br />
Dall'insieme <strong>di</strong> queste relazioni si riesce a comprendere che l'introduttore della subor<strong>di</strong>nata<br />
svolge un ruolo <strong>di</strong> comparazione temporale andando a mo<strong>di</strong>ficare il verbo della reggente.<br />
8.2.2 Raffinamento delle regole <strong>di</strong> cancellazione<br />
Nella grammatica <strong>di</strong> PeTra esistono le regole positive, appena esaminate, che si occupano <strong>di</strong><br />
ricostruire l'albero <strong>di</strong> copertura della frase, e delle regole <strong>di</strong> cancellazione. Queste ultime sono<br />
utilizzate per l'eliminazione <strong>di</strong> particolari accezioni <strong>di</strong> un lemma sulla base delle informazioni<br />
morfosintattiche relative all'elemento in esame e a quelli a<strong>di</strong>acenti. Questo permette <strong>di</strong> limitare i<br />
tentativi effettuati dall'analisi vera e propria.<br />
In tali regole <strong>di</strong> cancellazione sono definite le con<strong>di</strong>zioni per cui devono scattare, ma anche le<br />
limitazioni per le quali ciò deve avvenire.<br />
In questo paragrafo sono descritte sia alcune nuove regole <strong>di</strong> cancellazione, che alcune nuove<br />
limitazioni per il loro utilizzo.<br />
8.2.2.1 Sostantivi interpretati come verbi<br />
In italiano, molte forme verbali della prima persona dell'in<strong>di</strong>cativo presente risultano essere<br />
omografi <strong>di</strong> sostantivi.<br />
In relazione alle forme verbali omografe <strong>di</strong> sostantivi, sono state ridefinite le circostanze che<br />
devono verificarsi affinché scatti la regola <strong>di</strong> cancellazione del sottoalbero contenente la forma<br />
interpretata come sostantivo. Tale ridefinizione è stata realizzata con delle euristiche dall'analisi<br />
delle singole frasi, avendo riscontrato un'alta presenza <strong>di</strong> questo tipo <strong>di</strong> errore. La conferma della<br />
necessità della ridefinizione è venuta dai risultati dell'interrogazione dell'annotazione funzionale<br />
basata su un solo tratto:<br />
Tipo relazione: *<br />
[ Testa verbale:<br />
POS: V<br />
MFEAT: S1IP<br />
]<br />
or<br />
[ Dipendente verbale :<br />
POS : V<br />
MFEAT: S1IP<br />
]<br />
Infatti, le forme aventi nel tratto Mfeat il valore specificato si sono rivelate statisticamente rare:<br />
questo ci ha portato a rivedere i criteri con cui, in PeTra, tali analisi erano invece preferite al<br />
sostantivo.<br />
136
Co<strong>di</strong>ce linea e Tema<br />
8.2.2.2 Più<br />
Un problema che la <strong>Treebank</strong> ci ha aiutato a risolvere è stata la corretta analisi <strong>di</strong> più. Nel nostro<br />
sistema, infatti, non erano presenti sufficienti regole in grado <strong>di</strong> in<strong>di</strong>viduare il corretto ruolo <strong>di</strong> più.<br />
Abbiamo quin<strong>di</strong> estratto dall'annotazione funzionale tutte le presenze <strong>di</strong> più e il contesto in cui<br />
queste si trovano. In seguito all'analisi <strong>di</strong> queste informazioni sono state in<strong>di</strong>viduate una nuova<br />
regola <strong>di</strong> cancellazione e una limitazione ad una regola <strong>di</strong> cancellazione esistente.<br />
Abbiamo, infatti, rilevato che tutti i più che mo<strong>di</strong>ficano un aggettivo sono avverbi: in PeTra<br />
abbiamo quin<strong>di</strong> inserito la regola <strong>di</strong> cancellazione <strong>di</strong> più come preposizione se seguito da aggettivo<br />
(la costruzione errata ricadeva nella più generale regola positiva per la quale una preposizione può<br />
precedere un aggettivo).<br />
E' stata ampliata la limitazione riguardante la regola <strong>di</strong> cancellazione <strong>di</strong> più come preposizione:<br />
più come preposizione non veniva cancellato solo nel caso in cui fosse seguito da un numerale.<br />
Adesso non viene cancellato anche nel caso sia seguito da un determiner.<br />
8.2.2.3 Come<br />
Le frasi costruite come:<br />
Non si tratta <strong>di</strong> prendere > , come paventa il ministro Maroni .<br />
creavano problemi <strong>di</strong> riconoscimento in PeTra, in quanto il come era identificato come<br />
avverbio interrogativo e il soggetto posposto veniva scambiato per complemento oggetto.<br />
L'analisi delle costruzioni che coinvolgono il come ha portato all'in<strong>di</strong>viduazione <strong>di</strong> situazioni del<br />
tipo:<br />
• nei costituenti: una F introdotta da come con POS = Conj;<br />
• nel funzionale: verbo transitivo <strong>di</strong> modo finito,<br />
tale verbo svolge ruolo <strong>di</strong> testa in una relazione <strong>di</strong> soggetto, con soggetto<br />
posposto,<br />
è assente la relazione <strong>di</strong> complemento oggetto.<br />
Il problema era dovuto all'esistenza, nella grammatica <strong>di</strong> PeTra, <strong>di</strong> una regola <strong>di</strong> cancellazione<br />
per eliminare i sottoalberi relativi a frasi non interrogative, prive (apparentemente!) <strong>di</strong> soggetto.<br />
L'unica possibilità <strong>di</strong> interpretare frasi come quella citata era <strong>di</strong> considerarla interrogativa e con<br />
soggetto sottinteso. La regola che portava alla cancellazione descritta è stata inibita nel caso in cui<br />
la F <strong>di</strong>penda da come in qualità <strong>di</strong> congiunzione.<br />
8.2.3 Mo<strong>di</strong>fica delle preferenze e delle restrizioni<br />
Il terzo tipo <strong>di</strong> regole si occupa <strong>di</strong> assegnare delle penalità: in caso <strong>di</strong> ambiguità si procede<br />
costruendo tutti gli alberi possibili, ma non tutti con lo stesso valore <strong>di</strong> probabilità. Questa<br />
informazione viene utilizzata nei casi in cui non si riesca ad eliminare l'ambiguità procedendo con<br />
la costruzione dell'albero: quelli con maggiore penalizzazione vengono eliminati. Nel seguito sono<br />
esposte alcune delle restrizioni realizzate a partire dalle due annotazioni funzionali.<br />
137
Co<strong>di</strong>ce linea e Tema<br />
8.2.3.1 Sono<br />
Anche in questo caso la presenza <strong>di</strong> due omografi impe<strong>di</strong>va la classificazione corretta. Rilevando<br />
nel corpus una scarsa presenza <strong>di</strong> sono come prima persona dell'in<strong>di</strong>cativo presente, abbiamo deciso<br />
<strong>di</strong> inserire una penalità in corrispondenza <strong>di</strong> quella forma: al momento della costruzione dell'albero,<br />
in caso <strong>di</strong> completa ambiguità, viene data la preferenza alla terza persona plurale.<br />
8.2.3.2 Ieri<br />
Gli avverbi <strong>di</strong> tempo compaiono spesso come teste in relazioni <strong>di</strong> tipo Mod nell'annotazione<br />
sintattica. Il mo<strong>di</strong>ficatore può essere una congiunzione (anche ieri) o un avverbio (proprio ieri) con<br />
i quali genera un SAVV nell'annotazione sintattica a costituenti, o un sostantivo (ieri pomeriggio)<br />
con il quale genera un SN. In questo secondo caso la costruzione non può essere ammessa con tutti i<br />
sostantivi, in particolare deve essere evitata la costruzione con gli SP. Ad esempio, una frase in cui<br />
PeTra costruiva un albero errato, conteneva la sequenza:<br />
[...] ha spiegato ieri Mandela […]<br />
dove ieri e Mandela andavano a generare un sostantivo composto. L'interrogazione della<br />
<strong>Treebank</strong> non ha fatto in<strong>di</strong>viduare nessuna situazione <strong>di</strong> questo tipo, ma solo quelle dei tre tipi sopra<br />
descritti. Per risolvere tale situazione è stata implementata la restrizione sul tipo <strong>di</strong> nomi che<br />
possono andare a mo<strong>di</strong>ficare un avverbio <strong>di</strong> tempo.<br />
8.2.3.3 Dopo<br />
Il problema <strong>di</strong> dopo è dovuto alla corretta <strong>di</strong>scriminazione del suo uso come preposizione o come<br />
avverbio. Nell'annotazione a costituenti, la sua presenza come preposizione fa etichettare tutto il<br />
gruppo che regge come SP, ma per comprendere le relazioni <strong>di</strong> cui tenere conto nella<br />
<strong>di</strong>sambiguazione risulta fondamentale analizzare l'annotazione funzionale. Abbiamo infatti<br />
osservato che dopo non può essere avverbio quando è imme<strong>di</strong>atamente seguito da un sostantivo che<br />
ha ruolo <strong>di</strong> mo<strong>di</strong>ficatore <strong>di</strong> un verbo per il quale la relazione <strong>di</strong> soggetto sia già stata saturata.<br />
Facendo un esempio, nella porzione <strong>di</strong> frase:<br />
[…] dopo la libertà politica venga davvero anche l'eguaglianza […]<br />
abbiamo le seguenti annotazioni funzionali:<br />
mod(venire, libertà)<br />
sogg(venire, eguaglianza)<br />
E' quin<strong>di</strong> stata mo<strong>di</strong>ficata la regola che prende dopo come avverbio se valgono le con<strong>di</strong>zioni:<br />
- dopo è seguito da un sintagma nominale, con il quale crea un gruppo preposizionale<br />
- il verbo da cui <strong>di</strong>pende il gruppo preposizionale ha lo slot soggetto già saturato<br />
La mo<strong>di</strong>fica comporta una penalizzazione sulla scelta <strong>di</strong> dopo come avverbio se la verifica delle<br />
con<strong>di</strong>zione elencate dà esito positivo.<br />
138
Co<strong>di</strong>ce linea e Tema<br />
8.3 Mo<strong>di</strong>fiche al transfer<br />
Le mo<strong>di</strong>fiche apportate al <strong>di</strong>zionario e alla grammatica, grazie alle informazioni reperite nella<br />
<strong>Treebank</strong>, hanno permesso <strong>di</strong> riconoscere nuove strutture. In alcuni casi è stato necessario scrivere<br />
anche regole <strong>di</strong> transfer strutturale per assicurare una corretta traduzione dell'intera frase.<br />
Nel seguito sono descritti alcuni degli interventi realizzati. Anche in questo caso eviteremo <strong>di</strong><br />
utilizzare la sintassi interna <strong>di</strong> PeTra al fine <strong>di</strong> consentire una più facile lettura.<br />
8.3.1 Lo - pre<strong>di</strong>cato preposto<br />
Come già accennato, ammettere la costruzione con lo come pre<strong>di</strong>cato preposto ha portato alla<br />
costruzione <strong>di</strong> un nuovo tipo <strong>di</strong> albero <strong>di</strong> copertura per la frase italiana. Ad esso dovrà ora<br />
corrispondere un opportuno albero per la costruzione della frase inglese. Tale "ristrutturazione"<br />
avviene per mezzo delle regole <strong>di</strong> transfer.<br />
In questo caso è stata inserita una regola per la cancellazione del nodo lo, riconosciuto come<br />
pre<strong>di</strong>cato, e ne viene aggiunto uno con il pronome che svolge il ruolo <strong>di</strong> soggetto espresso.<br />
Ad esempio, la frase:<br />
non lo è<br />
deve <strong>di</strong>ventare<br />
it is not<br />
attraverso l'eliminazione del pre<strong>di</strong>cato e l'aggiunta del soggetto espresso calcolato sulla flessione<br />
del verbo.<br />
8.3.2 Subor<strong>di</strong>nate infinitive<br />
L'inglese prevede una categoria <strong>di</strong> verbi che non possono reggere delle infinitive, cosa che non<br />
trova corrispondenza in italiano. Per tali verbi l'infinitiva "italiana" viene trasformata in un'oggettiva<br />
"inglese", attraverso una opportuna ristrutturazione dell'albero <strong>di</strong> copertura nel passaggio dalla<br />
lingua sorgente alla lingua destinazione.<br />
Ciò permette ora <strong>di</strong> passare da<br />
a:<br />
Dico <strong>di</strong> andare<br />
I say that I go.<br />
8.3.3 Milioni/miliar<strong>di</strong> <strong>di</strong>…<br />
Nel corpus analizzato sono molto frequenti frasi con espressioni in cui un numerale è seguito da<br />
"milioni/miliar<strong>di</strong>" seguito ancora da un complemento <strong>di</strong> specificazione contenente un'unità <strong>di</strong><br />
misura. Questa situazione, in inglese, non può essere tradotta letteralmente. In inglese, infatti,<br />
l'espressione italiana<br />
139
Co<strong>di</strong>ce linea e Tema<br />
due miliar<strong>di</strong> <strong>di</strong> sterline<br />
deve essere tradotta<br />
two billion pounds.<br />
Per far questo è stata introdotta una regola <strong>di</strong> transfer per la cancellazione della preposizione <strong>di</strong><br />
in corrispondenza della situazione appena descritta. Occorre sottolineare che il buon funzionamento<br />
<strong>di</strong> questa regola <strong>di</strong> transfer non può prescindere dal corretto uso del semantic type relativo alle unità<br />
<strong>di</strong> misura. Come già descritto, attraverso l'uso della <strong>Treebank</strong> sono state inserite numerose<br />
informazioni semantiche che non possono che avere effetti positivi anche in questo contesto.<br />
8.3.4 Mesi<br />
Un'altra espressione piuttosto frequente nel corpus è l'informazione temporale espressa come<br />
nel mese <strong>di</strong> Marzo<br />
Anche a questa forma non corrisponde una traduzione letterale, bensì:<br />
in March<br />
Per realizzare tale passaggio è stata inserita una regola <strong>di</strong> transfer che, riconosciuta la situazione,<br />
elimina i no<strong>di</strong> mese e <strong>di</strong>, e trasforma la preposizione articolata, che introduce il gruppo, in<br />
preposizione semplice.<br />
8.4 Mo<strong>di</strong>fiche all'interfaccia software<br />
Nel corpus esaminato è molto frequente la presenza <strong>di</strong> forme legate da un trattino come<br />
part-time, ma anche come <strong>di</strong>ritto-dovere. Risulta evidente che le due situazioni non possono essere<br />
trattate nella stessa maniera: nel primo caso i due termini risultano privi <strong>di</strong> significato in italiano se<br />
usati singolarmente, nel secondo sono forme in<strong>di</strong>pendenti che vengono combinate per sottolineare<br />
una particolare circostanza.<br />
Per trattare il primo caso sono state inserite delle opportune entrate nel <strong>di</strong>zionario, per le altre<br />
viene ammessa la costruzione <strong>di</strong> una forma come composizione <strong>di</strong> due. Inoltre, poiché le situazioni<br />
che possono presentarsi possono essere varie e strettamente legate al tipo <strong>di</strong> corpus, ci siamo resi<br />
conto che non sempre si può prevedere a priori il giusto comportamento. Si è quin<strong>di</strong> deciso <strong>di</strong><br />
mo<strong>di</strong>ficare l'interfaccia software, per permettere all'utente del sistema <strong>di</strong> traduzione <strong>di</strong> scegliere il<br />
trattamento più appropriato al testo in esame. Questa scelta è conseguenza dell'analisi dei testi: non<br />
in tutti viene utilizzata la stessa logica d'uso del trattino, che risulta strettamente legata alla<br />
sensibilità dell'autore.<br />
Il software è stato inoltre mo<strong>di</strong>ficato per permettere una valutazione oggettiva del lavoro svolto:<br />
all'utente vengono ora fornite delle informazioni relative agli alberi <strong>di</strong> analisi costruiti, come il<br />
numero <strong>di</strong> alberi non chiusi o le ambiguità non risolte.<br />
140
Co<strong>di</strong>ce linea e Tema<br />
8.5 Osservazioni<br />
8.5.1 Ricerche infruttuose<br />
In italiano un determinato introduttore può richiedere uno specifico modo verbale nella<br />
subor<strong>di</strong>nata che introduce.<br />
Conoscendo l'importanza <strong>di</strong> <strong>di</strong>sporre, per la costruzione della frase, dell'elenco completo <strong>di</strong> tali<br />
introduttori, abbiamo acceduto all'annotazione sintattica funzionale alla loro ricerca, secondo<br />
interrogazioni in grado <strong>di</strong> in<strong>di</strong>viduare due proposizioni, in cui la <strong>di</strong>pendente ha il verbo al<br />
congiuntivo e l'introduttore specificato:<br />
Tipo relazione: arg<br />
Testa verbale:<br />
POS: V<br />
Dipendente verbale :<br />
POS: V<br />
Introduttore: not""<br />
MFEAT: ..C. 7<br />
ma nella parte <strong>di</strong> corpus selezionata abbiamo riscontrato pochissime situazioni <strong>di</strong> quel tipo e tutte<br />
già previste. E' stata sottolineata questa situazione per evidenziare come i risultati raggiunti siano<br />
strettamente legati al corpus esaminato e, quin<strong>di</strong>, alle situazioni in esso presenti. Nelle specifiche <strong>di</strong><br />
annotazione della <strong>Treebank</strong> erano previste contesti <strong>di</strong> annotazione a noi utili: solo al momento<br />
dell'elaborazione delle informazioni è risultata l'assenza <strong>di</strong> tali informazioni nella porzione <strong>di</strong><br />
corpus da noi selezionato su criteri <strong>di</strong> tipo Relational Data Analysis (RDA).<br />
8.5.2 Analisi del lavoro svolto<br />
La parte <strong>di</strong> verifica dei miglioramenti ottenuti in <strong>di</strong>pendenza delle mo<strong>di</strong>fiche apportate verrà<br />
realizzata durante la successiva linea, ma alcune osservazioni possono già essere effettuate adesso<br />
sulla base delle analisi svolte durante l'attuale lavoro <strong>di</strong> raffinamento.<br />
Probabilmente il miglioramento che attraverso misurazioni potremo ottenere nella fase finale non<br />
sarà proporzionale al lavoro svolto, o meglio, lo sarà in una porzione <strong>di</strong> corpus, ma non su tutto: nei<br />
testi selezionati, infatti, ci sono delle frasi molto lunghe che si articolano in numerose subor<strong>di</strong>nate<br />
ricche <strong>di</strong> incisi. Siamo convinti che, in tali frasi, possano presentarsi dei miglioramenti, specie a<br />
livello dei singoli sottoalberi, ma immaginiamo che <strong>di</strong>fficilmente possano essere costruiti degli<br />
alberi <strong>di</strong> completa copertura. Su frasi più lineari e ben costruite dovrebbero, invece, esserci dei<br />
miglioramenti certo consistenti.<br />
7 con ..C. si in<strong>di</strong>cano tutte quelle sequenze <strong>di</strong> 4 caratteri aventi in terza posizione una C e un qualunque carattere<br />
nelle altre posizioni. In questo caso significa che il verbo deve essere <strong>di</strong> modo congiuntivo<br />
141
Co<strong>di</strong>ce linea e Tema<br />
Sin qui, la vali<strong>di</strong>tà della <strong>Treebank</strong> come sorgente <strong>di</strong> informazione sembra indubbia, avendo<br />
consentito <strong>di</strong> estrarre un gran numero <strong>di</strong> informazioni, sia <strong>di</strong> tipo previsto che imprevisto, scaturito<br />
dall'esame concreto della risorsa. Indubbiamente, dopo la comparazione dei risultati raggiunti con il<br />
sistema <strong>di</strong> traduzione mo<strong>di</strong>ficato, si potrà articolare meglio un <strong>di</strong>scorso <strong>di</strong> valutazione. Quello che si<br />
può già <strong>di</strong>re ora è che, dopo averla analizzata concretamente, possono nascere nuovi spunti e<br />
suggerimenti relativi al tipo delle annotazioni inserite.<br />
142
Co<strong>di</strong>ce linea e Tema<br />
Riferimenti bibliografici<br />
Alonge, A., Bertagna, F., Calzolari, N., Roventini A. 1999. The Italian Wordnet. In: EWN CD-Rom<br />
(anche: http://www.hum.uva.nl/~ewn).<br />
Atkins B.T., J. Kegl, B. Levin, 1988, “Anatomy of a Verb Entry: from Linguistic Theory to<br />
Lexicographic Practice”, International Journal of Lexicography 1, pp. 84-126.<br />
Bémová A., J. Hajic, B. Hladká, J. Panenová, 1999, “Syntactic tagging of the The Prague<br />
dependency <strong>Treebank</strong>”, in Procee<strong>di</strong>ngs of the <strong>Treebank</strong>s workshop, Journée(s) ATALA sur les<br />
corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris,<br />
<strong>di</strong>sponibili all’in<strong>di</strong>rizzo http://www.biomath.jussieu.fr/ATALA/.<br />
Bresnan J., (ed.), 1982, The Mental Representation of Grammatical Relations, The MIT Press,<br />
Cambridge-Massachusetts.<br />
Calzolari N., O. Corazzari, (in corso <strong>di</strong> pubblicazione), “Senseval/Romanseval: the framework for<br />
Italian”, Computers and the Humanities, Kluwer Academic Publishers, Dordrecht.<br />
Calzolari N., O. Corazzari, M. Monachini, A. Roventini, 1996, “Speech Act and Perception Verbs:<br />
Generalizations and Contrastive Aspects”, in EURALEX-96 Procee<strong>di</strong>ngs, Goteborg University,<br />
pp. 73-83.<br />
Calzolari N., M. Baker, J.G. Kruyt (eds.), 1995, Towards a network of European Reference<br />
Corpora, Report of the NERC Consortium Feasibility Study, Pisa, Giar<strong>di</strong>ni.<br />
Carroll J., E. Briscoe, 1996, “Apportioning development effort in a probabilistic LR parsing system<br />
through evaluation”, in Procee<strong>di</strong>ngs of the ACL/SIGDAT Conference on Empirical Methods in<br />
Natural Language Processing, University of Pennsylvania, Philadelphia, PA, pp. 92-100.<br />
Carroll J., E. Briscoe, A. Sanfilippo, 1998, “Parser Evaluation: a Survey and a New Proposal”, in<br />
Procee<strong>di</strong>ngs of the First International Conference on Language Resources and Evaluation,<br />
Granada, Spain, 28-30 May, pp. 447-454.<br />
Casadei F., 1996, Metafore ed espressioni i<strong>di</strong>omatiche, Universita’ <strong>di</strong> Roma, La Sapienza,<br />
Dipartimento <strong>di</strong> Scienze del Linguaggio, Roma, Bulzoni E<strong>di</strong>tore.<br />
Chomsky N., 1986, Barriers, MIT Press, Cambridge MA.<br />
Corazzari O., 1992, Phraseological Units, Pisa, NERC Working Paper, NERC-92-WP8-68.<br />
Corazzari O., N. Calzolari, A. Zampolli, 1999, ELSNET: Internal Report, ILC, Pisa.<br />
Corazzari O., M. Monachini, 1995, ELSNET: Italian Corpus Sample, ILC-CNR, Pisa.<br />
Cruse D.A., 1986, Lexical Semantics, Cambridge, Cambridge University Press.<br />
Danlos L., 1981, “La morphosyntaxe des espressions figées”, Langages 63, Parigi, Larousse.<br />
Danlos L., 1988, “Les phrases à verbe support etre Prép”, Langages 90, Parigi, Larousse.<br />
143
Co<strong>di</strong>ce linea e Tema<br />
Delmonte R. (1999), From Shallow Parsing to Functional Structure, in Atti del Workshop AI*IA<br />
"Elaborazione del Linguaggio e Riconoscimento del Parlato", IRST Trento, pp.8-19.<br />
Delmonte R. (2000), Shallow Parsing And Functional Structure In Italian Corpora, LREC-2000<br />
Procee<strong>di</strong>ngs, Athens, June 2000.<br />
Fass D., 1991, “met*: A Method for Discriminating Metonymy and Metaphor by Computer”,<br />
Computational Linguistics 17(1), pp. 49-90.<br />
Federici S., S. Montemagni, V. Pirrelli, 1999, “SENSE: an Analogy-based Word Sense<br />
Disambiguation System”, in corso <strong>di</strong> pubblicazione in M. Light, M. Palmer (eds.), Special<br />
Issue of Natural Language Engineering on Lexical Semantic Tagging.<br />
Fellbaum C., J. Grabowski, S. Landes, 1998 “Performance and Confidence in a Semantic<br />
Annotation Task”, in Wordnet, An Electronic Lexical Database, Cambridge, MIT Press.<br />
Gale A. W., K. W. Church, D. Yarowsky, 1992, “A Method for Disambiguating Word Senses in a<br />
Large Corpus”, Computers and the Humanities 26, pp. 415-439.<br />
Garside R., G. Leech, G. Sampson, (a cura <strong>di</strong>), 1987, The computational analysis of English. A<br />
corpus-based approach, London, Longman.<br />
Garzanti, 1994, Dizionario Garzanti <strong>di</strong> Italiano, Milano, Garzanti E<strong>di</strong>tore.<br />
Goggi S., L. Biagini, E. Picchi, R. Bin<strong>di</strong>, S. Rossi, R. Marinelli, 1997, Italian Corpus<br />
Documentation, LE-PAROLE WP2.11, ILC, Pisa.<br />
Greenbaum S. (ed.), 1996, English Worldwide: The International Corpus of English, Oxford,<br />
Clarendon Press.<br />
Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Boston, Kluwer Academic<br />
Publishers.<br />
Gross M., 1985, “Sur les determinants dans les espressions figées”, Langages 79, Parigi, Larousse.<br />
Gross M., 1986, “The Representation of Compound Words”, in 11 th International Conference on<br />
Computational Linguistics, Procee<strong>di</strong>ngs of Coling ‘86, Bonn.<br />
Gross M., 1988, “Les limites de la phrase figées”, Langages 90, Parigi, Larousse.<br />
Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi.<br />
Hanks P., 1996, “Contextual Dependency and Lexical Sets”, International Journal of Corpus<br />
Linguistics 1, pp. 75-98.<br />
Hudson R., 1984, Word Grammar, Basil Blackwell, Oxford.<br />
Hudson R., 1988, “The Linguistic Foundations for Lexical Research and Dictionary Design”,<br />
International Journal of Lexicography, 1 (4), pp. 287-312.<br />
Karlsson, F., Voutilainen, A., Heikkila, J. e A. Anttila (eds.). 1995. Constraint Grammar, a<br />
language-independent system for parsing unconstrained text. Berlin e New York: Mouton de<br />
Gruyter.<br />
144
Co<strong>di</strong>ce linea e Tema<br />
Kilgarriff A., 1993, “Dictionary word sense <strong>di</strong>stinctions: An enquiry into their nature”, Computers<br />
and the Humanities 26, pp. 365-387.<br />
Landes S., C. Leacock, R. I. Tengi, 1998, “Buil<strong>di</strong>ng Semantic Concordances”, in Wordnet, An<br />
Electronic Lexical Database, Cambridge, MIT Press.<br />
Leech G., R. Barnett, P. Kahrel, 1996, Guidelines for the standar<strong>di</strong>zation of syntactic annotation of<br />
corpora, EAGLES Document EAG-TCWG-SPT/P.<br />
Leech G., R. Garside, 1991, “Running a grammar factory: the production of syntactically analysed<br />
corpora or ‘treebanks’“, in Johansson S., Stenstrom A.B., English Computer Corpora: Selected<br />
Papers and Research Guide, Berlin, Mouton de Gruyter, pp. 15-32.<br />
Lenci, A., F. Busa, N. Ruimy, E. Gola, M. Monachini, N. Calzolari, A. Zampolli, El. Guimier, G.<br />
Recourcé, L. Humphreys, U. Von Rekovsky, A. Ogonowski, C. McCauley, W. Peters, I. Peters,<br />
M. Villegas (1998). ‘Specifications’, SIMPLE Work, Linguistic Deliverable D2.1, Pisa.<br />
Lenci A., S. Montemagni, V. Pirrelli, C. Soria, K. Netter, M. Rajman, 1999 a, Corpora for<br />
Evaluation, WP5, ELSE (Evaluation in Language and Speech Engineering), LE4-8340.<br />
Lenci A., S. Montemagni, V. Pirrelli, C. Soria, 1999 b, “FAME: a Functional Annotation Metascheme<br />
for Multimodal and Multi-lingual Parsing Evaluation”, in Procee<strong>di</strong>ng of the ACL99<br />
Workshop on Computer-Me<strong>di</strong>ated Language Assessment and Evaluation in Natural Language<br />
Processing, University of Maryland, June 22 nd .<br />
Lenci A., Montemagni S., Pirrelli V., Soria C., 2000. Where opposites meet. A Syntactic Metascheme<br />
for Corpus Annotation and Parsing Evaluation. LREC-2000 Procee<strong>di</strong>ngs, Athens, June<br />
2000.<br />
Lin D., 1998, “A dependency.based method for evaluating broad-coverage parsers”, Natural<br />
Language Engineering 4(2), pp. 97-114.<br />
Marciniak M., A. Mykowiecka, A. Przepiórkowski, A. Kupsc, 1999, “Construction of an HPSG<br />
treebank for Polish”, in Procee<strong>di</strong>ngs of the <strong>Treebank</strong>s workshop, Journée(s) ATALA sur les<br />
corpus annotés pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris,<br />
<strong>di</strong>sponibili all’in<strong>di</strong>rizzo http://www.biomath.jussieu.fr/ATALA/.<br />
Marcus M., M.A. Marcinkiewicz, B. Cantorini, 1993, “Buil<strong>di</strong>ng a Large Annotated Corpus of<br />
English: The Penn <strong>Treebank</strong>”, Computational Linguistics 19(2), pp. 313-330.<br />
Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K.<br />
Schasberger, 1994, “The Penn <strong>Treebank</strong>: Annotating pre<strong>di</strong>cate argument structure”, in<br />
Procee<strong>di</strong>ngs of the Human Language Technology Workshop, March 1994, Morgan Kaufman<br />
Publishers Inc., San Francisco, CA.<br />
MATE, 1998, Multilevel Annotation Tools Engineering, .<br />
Meyers A., K. Macleod, R. Grishman, 1994, “Standar<strong>di</strong>zation of the Complement Adjunct<br />
Distinction”, in Procee<strong>di</strong>ngs of COLING-94.<br />
Monachini M., 1995, ELM-IT: An Italian Typed Incarnation of The EAGLES Lexicon<br />
Morphosyntactic Specifications, Work in progress, ILC, Pisa.<br />
145
Co<strong>di</strong>ce linea e Tema<br />
Monachini, M, 1996 ELM-IT: EAGLES Specifications for Italian Morphosyntax Lexicon<br />
Specification and Classification Guidelines, EAGLES Report, Pisa.<br />
Monachini M., A. Roventini, A. Alonge, N. Calzolari, O. Corazzari, 1994, “Linguistic Analysis of<br />
Italian Perception and Speech Act Verbs”, DELIS Working Paper, ILC, Pisa.<br />
Montemagni S., 1990, Definition, General Features and Taxonomy of Multi Word Expressions,<br />
ILC, Pisa.<br />
Montemagni S., 1992, Syntactically annotated corpora: comparing the underlying annotation<br />
schemes, Technical Report NERC-67, ILC Pisa.<br />
Montemagni S., 1995, Subject and Object in Italian Sentence Processing, PhD Thesis, University<br />
of Manchester Institute of Science and Technology (UK), Centre for Computational<br />
Linguistics, Settembre 1995.<br />
Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Zampolli A., Fanciulli F.,<br />
Massetani M., Raffaelli R., Basili R., Pazienza M.T., Saracino D., Zanzotto F., Mana N.,<br />
Pianesi F., Delmonte R., 2000. The Italian Syntactic-Semantic <strong>Treebank</strong>: Architecture,<br />
Annotation, Tools and Evaluation. Procee<strong>di</strong>ngs of the COLING Workshop on "<strong>Linguistica</strong>lly<br />
Interpreted Corpora (LINC-2000)", Luxembourg, 6 August 2000, pp. 18-27.<br />
Montemagni S., Barsotti F., Battista M., Calzolari N., Corazzari O., Lenci A., Zampolli A.,<br />
Fanciulli F., Massetani M., Raffaelli R., Basili R., Pazienza M.T., Saracino D., Zanzotto F.,<br />
Mana N., Pianesi F., Delmonte R., 2001 "Buil<strong>di</strong>ng the Italian Syntactic-Semantic <strong>Treebank</strong>", in<br />
corso <strong>di</strong> stampa in Anne Abeillé (a cura <strong>di</strong>), Buil<strong>di</strong>ng and using syntactically annoted corpora,<br />
Language and Speech series, Kluwer, Dordrecht; anche <strong>di</strong>sponibile all'in<strong>di</strong>rizzo<br />
http://www.talana.linguist.jussieu.fr/~nbarrier/treeBank/toc.html.<br />
Moon R., 1987, “The Analysis of Meaning, in Looking Up, An Account of the Cobuilt Project”, in<br />
Lexical Computing, Birmingham, Collins ELT.<br />
Renzi L. (a cura <strong>di</strong>), 1988, Grande grammatica italiana <strong>di</strong> consultazione, Vol.I, Bologna, Il Mulino.<br />
Renzi L., Salvi G. (a cura <strong>di</strong>), 1991, Grande grammatica italiana <strong>di</strong> consultazione, vol. 2, Il<br />
Mulino, Bologna.<br />
Ruimy N., O. Corazzari, 1991, Be Prep X Frozen Expressions, Eurotra n.13, ILC, Pisa.<br />
Palazzi, Folena, 1995, Dizionario della lingua italiana.<br />
PAROLE, 1996-1998, Preparatory Action for Linguistic Resources Organization for Language<br />
Engineering, LE-4017, Language Engineering.<br />
Picchi E., 1994, “Pi-Tagger: A tagger and lemmatizer for Italian”, in EURALEX-94 Procee<strong>di</strong>ngs,<br />
Amsterdam.<br />
Sampson G., 1987, “The grammatical database and parsing system”, in Garside R., Leech G., Sampson<br />
G., (a cura <strong>di</strong>), pp. 82-96.<br />
Sampson G., 1995, English for the Computer, Oxford, Clarendon Press.<br />
146
Co<strong>di</strong>ce linea e Tema<br />
Sampson G., 1998, A proposal for improving the measurement of parse accuracy, manoscritto non<br />
pubblicato.<br />
Samvelian P., 1990, Les constructions etre Prep X: Formalisation et traitement dans le cadre du<br />
project EUROTRA, Memoire de DEA, Universite Paris 7, Parigi.<br />
Sandoval M., A. Lopez Ruesga, S. e F. Sanchez León, 1999, Spanish Tree Bank: Specifications,<br />
Version 4, Manoscritto.<br />
Scalise S., 1995, “La formazione delle parole”, in Grande grammatica italiana <strong>di</strong> consultazione,<br />
Vol.III, pp. 471-514, Bologna, Il Mulino.<br />
Schwarze C., 1995, Grammatik der italienischen Sprache 2. verbesserte Auflage, Max Niemeyer<br />
Verlag, Tubingen.<br />
Sinclair J., 1996, “The Empty Lexicon”, International Journal of Corpus Linguistics 1, pp. 99-119.<br />
Somers H., 1984, “On the vali<strong>di</strong>ty of the Complement-Adjunct Distinction in Valency Grammar”,<br />
in Linguistics, 22, pp. 507-530.<br />
SPARKLE, Shallow Parsing and Knowledge Extraction for Language Engineering,<br />
.<br />
Ten Hacken P., H. Maas, B. Maegaard, 1991, “Dictionaries in Eurotra”, in The Eurotra Linguistic<br />
Specifications, C. Copeland, J. Durand, S. Krawer, B. Maegaard, (eds.), Luxembourg,<br />
Commission of the European Communities.<br />
Thorsten B., S. Wojciech, H. Uszkoreit, 1999, “Syntactic annotation of a German newspaper<br />
corpus”, in Procee<strong>di</strong>ngs of the <strong>Treebank</strong>s workshop, Journée(s) ATALA sur les corpus annotés<br />
pour la syntaxe, 18-19 juin 1999, Université Paris 7, place Jussieu, Paris, <strong>di</strong>sponibili<br />
all’in<strong>di</strong>rizzo http://www.biomath.jussieu.fr/ATALA/.<br />
Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi.<br />
Voorhees E. M., 1998, “Using WordNet for Text Retrieval”, in Wordnet, An Electronic Lexical<br />
Database, Cambridge, MIT Press.<br />
Zingarelli, 1997, Lo Zingarelli 1997 Vocabolario della Lingua Italiana, Bologna, Zanichelli<br />
E<strong>di</strong>tore.<br />
147
Co<strong>di</strong>ce linea e Tema<br />
Appen<strong>di</strong>ci<br />
1. Annotazione a costituenti: rappresentazione in XML<br />
2. Annotazione funzionale: rappresentazione in XML<br />
3. Annotazione semantico-lessicale: rappresentazione in XML<br />
148
Co<strong>di</strong>ce linea e Tema<br />
Appen<strong>di</strong>ce 1 - Annotazione a costituenti: rappresentazione in XML<br />
1 Dtd<br />
La formalizzazione dell’annotazione a costituenti, come quella degli altri livelli <strong>di</strong> annotazione,<br />
viene prodotta sulla base del linguaggio <strong>di</strong> markup XML (eXstensible Markup Language). Il<br />
linguaggio XML prevede una DTD (Document Type Definition), ossia un file <strong>di</strong> riferimento per la<br />
co<strong>di</strong>fica dei dati, che contiene al suo interno le regole <strong>di</strong> definizione dei tag e in<strong>di</strong>ca gli elementi ed<br />
il loro or<strong>di</strong>ne all’interno del documento XML. Tale architettura prevede che la co<strong>di</strong>fica avvenga per<br />
frase (elemento ). Gli elementi contengono, incassati al loro interno, o uno o più<br />
elementi o uno o più elementi . A loro volta gli elementi contengono,<br />
incassati al loro interno, o uno o più elementi o uno o più elementi . Questi ultimi<br />
elementi puntano in maniera in<strong>di</strong>retta alle occorrenze lessicali nel corrispondente file morfologico.<br />
Ricor<strong>di</strong>amo che l’annotazione a costituenti, come anche quella funzionale e quella semantica,<br />
presuppone un livello <strong>di</strong> annotazione morfo-sintattica (la cui DTD è documentata nel Rapporto<br />
della Linea 1.2). Questo vuol <strong>di</strong>re che nei files <strong>di</strong> annotazione a costituenti, come anche nei files<br />
relativi agli altri tipi <strong>di</strong> annotazione, troviamo dei puntatori o identificatori, co<strong>di</strong>ficati come tratti, i<br />
quali dal file <strong>di</strong> annotazione puntano al file con l’annotazione morfosintattica. Ciò è illustrato dagli<br />
esempi che seguono.<br />
1.1 L’elemento <br />
Questo elemento può contenere al suo interno uno o più elementi , oppure uno o più<br />
elementi . L’elemento è descritto dai seguenti tratti:<br />
id<br />
init<br />
end<br />
<br />
[ASCII]<br />
[ASCII]<br />
[ASCII]<br />
Il tratto id è un tratto <strong>di</strong> identificazione e associa ciascun elemento ad una stringa <strong>di</strong><br />
caratteri [ASCII] i quali in<strong>di</strong>cano il file morfologico e la singola frase, interna ad esso, a cui<br />
l’elemento in considerazione fa riferimento.<br />
Il tratto init è un tratto i cui possibili valori sono identificatori <strong>di</strong> parole morfologiche, in questo<br />
caso specifico il valore del tratto init identifica la prima parola morfologica della frase che stiamo<br />
trattando.<br />
Il tratto end è un tratto i cui possibili valori sono identificatori <strong>di</strong> parole morfologiche, in questo<br />
caso specifico il valore del tratto end identifica l’ultima parola morfologica della frase che stiamo<br />
trattando.<br />
Riportiamo qui <strong>di</strong> seguito un esempio che mette in parallelo il file morfologico <strong>di</strong> una frase ed il<br />
file <strong>di</strong> annotazione a costituenti della stessa frase:<br />
149
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex. 00 Il tesoro mette sul mercato il 51% a 2.200-2.700 lire per<br />
azione.<br />
Il<br />
Tesoro<br />
mette<br />
sul<br />
mercato<br />
il<br />
51%<br />
a<br />
2.200-2.700<br />
lire<br />
per<br />
azione<br />
.<br />
mword.xml<br />
cost.xml<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
150
Co<strong>di</strong>ce linea e Tema<br />
1.2 L’elemento <br />
L’elemento , corrispondente al costituente frasale, può contenere al suo interno o uno o<br />
più elementi o uno o più elementi .<br />
Segue un esempio dove abbiamo evidenziato gli elementi insieme al file morfologico <strong>di</strong><br />
riferimento.<br />
Xml Ex. 01 Bruxelles all’Italia: urgente ridurre il deficit.<br />
Bruxelles<br />
all’<br />
Italia<br />
:<br />
urgente<br />
ridurre<br />
il<br />
deficit<br />
.<br />
mword.xml<br />
cost.xml<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
151
Co<strong>di</strong>ce linea e Tema<br />
L’elemento nodo è descritto da un unico tratto, il tratto type. L’inventario dei suoi possibili<br />
valori, <strong>di</strong>chiarati al livello <strong>di</strong> DTD come <strong>di</strong> tipo CDATA, è riportato nella sezione sulle specifiche<br />
<strong>di</strong> annotazione per il livello a costituenti (sezione 4.2).<br />
type<br />
<br />
CDATA<br />
Xml Ex. 02 Bruxelles all’Italia: urgente ridurre il deficit.<br />
…<br />
il<br />
deficit<br />
…<br />
…<br />
<br />
<br />
<br />
<br />
…<br />
mword.xml<br />
cost.xml<br />
1.3 L’elemento <br />
L’elemento ha solamente un attributo, mw_id. Il tratto mw_id è un tratto <strong>di</strong><br />
identificazione e associa ciascun elemento ad una stringa <strong>di</strong> caratteri [ASCII] i quali<br />
in<strong>di</strong>cano la parola morfologica a cui l’elemento in considerazione fa riferimento.<br />
mw_id<br />
<br />
[ASCII]<br />
Xml Ex. 03 SERVIZI.<br />
SERVIZI<br />
.<br />
mword.xml<br />
cost.xml<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
152
Co<strong>di</strong>ce linea e Tema<br />
Appen<strong>di</strong>ce 2 - Annotazione funzionale: rappresentazione in XML<br />
2 DTD<br />
Al livello funzionale, la co<strong>di</strong>fica XML dei dati annotati avviene per frase. L’unità minima <strong>di</strong><br />
annotazione è costituita dalla frase, designata nella DTD dall’elemento .<br />
Ogni elemento può contenere, al suo interno, la lista dei partecipanti alle<br />
relazioni (con le relative proprietà) seguita dalla lista delle relazioni funzionali tra i partecipanti,<br />
corrispondenti rispettivamente agli elementi <strong>di</strong> tipo e <strong>di</strong> tipo . Gli elementi<br />
puntano alle relative parole morfologiche nel file <strong>di</strong> input con l’annotazione morfosintattica;<br />
gli elementi <strong>di</strong> tipo descrivono le relazioni funzionali tra i vari elementi <strong>di</strong><br />
tipo .<br />
Gli elementi per questo livello <strong>di</strong> annotazione sono ricapitolati <strong>di</strong> seguito, mentre per la<br />
descrizione dei tratti associati ai vari elementi riman<strong>di</strong>amo alle sezioni successive:<br />
<br />
<br />
<br />
<br />
2.1 L’elemento (partecipante)<br />
Questo elemento descrive il partecipante in una qualsiasi relazione funzionale. La co<strong>di</strong>fica<br />
dell’elemento presuppone l’annotazione morfo-sintattica del testo. Questo vuol <strong>di</strong>re, nel<br />
dettaglio, che tramite la co<strong>di</strong>fica del tratto dell’elemento , lo stesso elemento<br />
punta <strong>di</strong>rettamente alla corrispondente parola morfologica (per l’architettura modulare<br />
della <strong>Treebank</strong> <strong>di</strong> SI-TAL si rinvia al Rapporto della Linea 1.2). Diamo <strong>di</strong> seguito una<br />
esemplificazione <strong>di</strong> quanto detto:<br />
Xml Ex.00 I due malavitosi sono stati spesso segnalati in <strong>di</strong>verse occasioni<br />
mword.xml<br />
I<br />
due<br />
malavitosi<br />
sono<br />
stati<br />
spesso<br />
segnalati<br />
in<br />
<strong>di</strong>verse<br />
occasioni<br />
.<br />
funct.xml<br />
<br />
153
Co<strong>di</strong>ce linea e Tema<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Un elemento <strong>di</strong> tipo è descritto dai seguenti tratti: quantificazione, car<strong>di</strong>nalita,<br />
definitezza, aux, perifra, introdep, caso, status, ruolo, modo, <strong>di</strong>at, syn_form,<br />
reflex, pers, num, gen, introsim, partec_id.<br />
<br />
quantificazione<br />
car<strong>di</strong>nalita<br />
definitezza<br />
aux<br />
perifra<br />
introdep<br />
caso<br />
status<br />
ruolo<br />
modo<br />
CDATA<br />
CDATA<br />
CDATA<br />
CDATA<br />
CDATA<br />
CDATA<br />
dativo, accusativo<br />
aperto, chiuso<br />
agente, locativo, temporale<br />
comparativo, ambito,<br />
superlativo<br />
gerun<strong>di</strong>o, part_pass,inf, partic.pres<br />
CDATA<br />
<strong>di</strong>at<br />
syn_form<br />
CDATA<br />
reflex<br />
CDATA<br />
pers 1, 2, 3<br />
num<br />
sing, plur<br />
gen<br />
mas, fem<br />
introsim<br />
CDATA<br />
partec_id<br />
[ASCII]<br />
href<br />
<br />
154
Co<strong>di</strong>ce linea e Tema<br />
In quanto segue, riportiamo una esemplificazione <strong>di</strong> ogni tratto. Per una <strong>di</strong>scussione dettagliata<br />
dei tratti associati ai partecipanti ad una relazione funzionale si rinvia alle sezioni 5.1.1.1.2 e<br />
5.1.1.2.1.<br />
2.1.1 quantificazione<br />
Il tratto quantificazione viene utilizzato nei casi in cui un partecipante sia quantificato. Il tratto<br />
quantificazione ha come possibili valori CDATA, ossia qualsiasi stringa <strong>di</strong> testo.<br />
Xml Ex. 01 Ho visto molti gatti<br />
mword.xml<br />
Ho<br />
visto<br />
molti<br />
gatti<br />
funct.xml<br />
…<br />
<br />
…<br />
2.1.2 car<strong>di</strong>nalita<br />
Il tratto car<strong>di</strong>nalita viene utilizzato nei casi un cui un partecipante abbia una certa car<strong>di</strong>nalità. Il<br />
tratto car<strong>di</strong>nalita ha come valore CDATA, ossia qualsiasi stringa <strong>di</strong> testo.<br />
Xml Ex. 02 Ho visto due gatti<br />
Ho<br />
visto<br />
due<br />
gatti<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
…<br />
2.1.3 definitezza<br />
Il tratto definitezza viene utilizzato per descrivere la definitezza <strong>di</strong> un partecipante. L’inventario<br />
dei possibili valori associati al tratto definitezza è riportato nella sezione 5.1.1.1.2.3. sulle<br />
specifiche <strong>di</strong> annotazione per il livello funzionale (al livello <strong>di</strong> DTD sono <strong>di</strong>chiarati come <strong>di</strong> tipo<br />
CDATA).<br />
155
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex. 03 Ho visto il gatto<br />
Ho<br />
visto<br />
il<br />
gatto<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
…<br />
2.1.4 aux<br />
aux viene usato nei casi in cui un partecipante verbale occorra in costruzioni perifrastiche con un<br />
verbo ausiliare. Possibili valori sono essere e avere (al livello <strong>di</strong> DTD sono <strong>di</strong>chiarati come<br />
CDATA). Cfr sezione 5.1.1.1.2.3.<br />
Xml Ex. 04 Ho visto i gatti<br />
Ho<br />
visto<br />
i<br />
gatti<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
…<br />
2.1.5 perifra<br />
Il tratto perifra viene utilizzato nei casi in cui un partecipante verbale sia utilizzato in<br />
costruzioni passive con essere o venire, e nei casi in cui un partecipante verbale sia utilizzato in<br />
costrutti modali e aspettuali. I possibili valori, <strong>di</strong>chiarati al livello <strong>di</strong> DTD come CDATA, sono<br />
elencati nella sezione 5.1.1.1.2.3.<br />
Xml Ex. 05 Devono arrivare domani<br />
mword.xml<br />
Devono<br />
arrivare<br />
domani<br />
funct.xml<br />
…<br />
<br />
…<br />
156
Co<strong>di</strong>ce linea e Tema<br />
2.1.6 introdep<br />
Il tratto introdep è usato per specificare l’elemento grammaticale che “introduce” un <strong>di</strong>pendente<br />
che è parte <strong>di</strong> una delle seguenti relazioni funzionali: <strong>di</strong>p; sogg; comp; mod; arg; pred;<br />
non_pred; ogg_d; obl. L’insieme dei suoi possibili valori è aperto (ed è <strong>di</strong>chiarato come<br />
CDATA nella DTD).<br />
Xml Ex.06 Camminava mentre parlava<br />
mword.xml<br />
Camminava<br />
mentre<br />
parlava<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
2.1.7 caso<br />
Il tratto <strong>di</strong> caso è usato nella descrizione <strong>di</strong> <strong>di</strong>pendenti <strong>di</strong> tipo pronominale. I suoi possibili valori<br />
sono: dativo e accusativo.<br />
Xml Ex.07 gli parlo domani<br />
mword.xml<br />
gli<br />
parlo<br />
domani<br />
funct.xml<br />
…<br />
<br />
…<br />
2.1.8 status<br />
Il tratto status è associato a partecipanti <strong>di</strong> forma frasale ed è usato per <strong>di</strong>scriminare tra soggetti<br />
e complementi frasali con la valenza soggetto saturata e quelli con soggetto controllato da<br />
<strong>di</strong>pendenze esterne. I possibili valori associati a questo tratto sono: aperto e chiuso. Cfr sezione<br />
5.1.1.1.2.1.<br />
Xml Ex.08 Giovanni decise <strong>di</strong> partire<br />
mword.xml<br />
Giovanni<br />
decise<br />
<strong>di</strong><br />
partire<br />
157
Co<strong>di</strong>ce linea e Tema<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
Xml Ex. 09 Giovanni <strong>di</strong>sse che Maria sarebbe partita domani<br />
mword.xml<br />
Giovanni<br />
<strong>di</strong>sse<br />
che<br />
Maria<br />
sarebbe<br />
partita<br />
domani<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
2.1.9 ruolo<br />
Il tratto <strong>di</strong> ruolo è usato per fornire una caratterizzazione semantica alla relazione funzionale,<br />
ovvero per rendere esplicito, quando necessario, il ruolo semantico <strong>di</strong> un <strong>di</strong>pendente. Il tratto <strong>di</strong><br />
ruolo può assumere i valori <strong>di</strong> agente, temporale, locativo, compar(ativo), superlativo e<br />
ambito e viene assegnato per specializzare l’interpretazione della relazione funzionale, fornendo<br />
così elementi utili per l’interpretazione semantica della relazione in corso <strong>di</strong> annotazione (cfr<br />
sezione 5.1.1.1.2.1).<br />
Xml Ex. 10 è partito da Roma<br />
mword.xml<br />
è<br />
partito<br />
da<br />
Roma<br />
funct.xml<br />
…<br />
<br />
<br />
158
Co<strong>di</strong>ce linea e Tema<br />
<br />
…<br />
Xml Ex. 11 fu ucciso da Bruto<br />
mword.xml<br />
fu<br />
ucciso<br />
da<br />
Bruto<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
Xml Ex. 12 è partito da un’ora<br />
mword.xml<br />
è<br />
partito<br />
da<br />
un’<br />
ora<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
Xml Ex. 13 è più intelligente dell’insegnante<br />
mword.xml<br />
è<br />
più<br />
intelligente<br />
dell’<br />
insegnante<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
159
Co<strong>di</strong>ce linea e Tema<br />
<br />
<br />
…<br />
Xml Ex.14 è il più intelligente<br />
mword.xml<br />
è<br />
il<br />
più<br />
intelligente<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
…<br />
Xml Ex. 15 è il più intelligente della classe<br />
mword.xml<br />
è<br />
il<br />
più<br />
intelligente<br />
della<br />
classe<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
…<br />
2.1.10 modo<br />
Il tratto modo specificare il modo <strong>di</strong> partecipanti verbali. I suoi possibili valori sono riportati<br />
nella sezione 5.1.1.1.2.1.<br />
160
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex 16 Giovanni decise <strong>di</strong> partire<br />
mword.xml<br />
Giovanni<br />
decise<br />
<strong>di</strong><br />
partire<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
Xml Ex. 17 camminava parlando<br />
mword.xml<br />
camminava<br />
parlando<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
Xml Ex. 18 la cosa è ormai compiuta<br />
mword.xml<br />
la<br />
cosa<br />
è<br />
ormai<br />
compiuta<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
161
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex.19 il presidente uscente<br />
mword.xml<br />
il<br />
presidente<br />
uscente<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
2.1.11 <strong>di</strong>at<br />
Il tratto <strong>di</strong>at(esi) specifica la <strong>di</strong>atesi <strong>di</strong> un partecipante verbale. Suoi possibili valori sono<br />
riportati nella sezione 5.1.1.1.2.2.<br />
Xml Ex. 20 La Microsoft ha assunto Paolo<br />
mword.xml<br />
La<br />
Microsoft<br />
ha<br />
assunto<br />
Paolo<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
2.1.12 syn_form<br />
Il tratto syn_form specifica la forma personale/impersonale <strong>di</strong> un partecipante verbale. I suoi<br />
possibili valori sono riportati nella sezione 5.1.1.1.2.2.<br />
Xml Ex. 21 Bisogna <strong>di</strong>scutere <strong>di</strong> queste cose<br />
Bisogna<br />
<strong>di</strong>scutere<br />
<strong>di</strong><br />
queste<br />
cose<br />
mword.xml<br />
162
Co<strong>di</strong>ce linea e Tema<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
2.1.13 reflex<br />
Il tratto reflex specifica caratteristiche legate alla riflessività del partecipante verbale. L’insieme<br />
dei suoi possibili valori è riportato nella sezione 5.1.1.1.2.2.<br />
Xml Ex. 22 Mi compro una bicicletta<br />
mword.xml<br />
Mi<br />
compro<br />
una<br />
bicicletta<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
2.1.14 pers<br />
pers(ona) specifica la persona <strong>di</strong> un partecipante verbale. Suoi possibili valori sono 1, 2, 3.<br />
Xml Ex.23 Mario mangia una pizza<br />
mword.xml<br />
Mario<br />
mangia<br />
una<br />
pizza<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
163
Co<strong>di</strong>ce linea e Tema<br />
2.1.15 num<br />
num(ero) specifica il numero <strong>di</strong> un partecipante verbale. Suoi possibili valori sono: sing e plur.<br />
Xml Ex. 24 Mario mangia una pizza<br />
mword.xml<br />
Mario<br />
mangia<br />
una<br />
pizza<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
2.1.16 gen<br />
gen specifica, ove rilevante (ovvero con partecipanti verbali con <strong>di</strong>atesi passiva o me<strong>di</strong>a, oppure<br />
con partecipanti verbali che hanno tempi composti), il genere del partecipante verbale. Suoi<br />
possibili valori sono mas e fem.<br />
Xml Ex. 25 Maria è arrivata<br />
mword.xml<br />
Maria<br />
è<br />
arrivata<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
2.1.17 introsim<br />
Il tratto introsim è usato per specificare l’elemento grammaticale che “introduce” un<br />
partecipante che è parte <strong>di</strong> una delle seguenti relazioni funzionali: <strong>di</strong>sg, cong.<br />
Xml Ex. 26 Mangiare sia il pane che la frutta<br />
Mangiare<br />
sia<br />
il<br />
pane<br />
mword.xml<br />
164
Co<strong>di</strong>ce linea e Tema<br />
che<br />
la<br />
frutta<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
…<br />
2.1.18 partec_id<br />
Il tratto partec_id associa a ciascun partecipante un numero identificativo unico.<br />
Xml Ex. 27 Il ragazzo che Maria ha incontrato ieri<br />
mword.xml<br />
Il<br />
ragazzo<br />
che<br />
Maria<br />
ha<br />
incontrato<br />
ieri<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
2.1.19 href<br />
Questo tratto ha come possibili valori degli identificatori <strong>di</strong> parole morfologiche: infatti,<br />
l’annotazione funzionale presuppone un livello <strong>di</strong> annotazione morfo-sintattica. Livello al quale<br />
vengono co<strong>di</strong>ficati i tratti <strong>di</strong> POS (Part-Of-Speech), lemma ed altre caratteristiche morfologiche<br />
quale la persona, il numero, il tempo verbale, etc. I file <strong>di</strong> annotazione funzionale a livello Xml,<br />
tramite il tratto href, puntano alle singole parole morfologiche. In altri termini il tratto href punta<br />
dal file <strong>di</strong> annotazione funzionale Xml a quello morfologico Xml.<br />
Riportiamo qui <strong>di</strong> seguito un esempio <strong>di</strong> file morfologico (quello che segue è il reale file<br />
morfologico cui il livello <strong>di</strong> annotazione funzionale fa riferimento. I file morfologici che abbiamo<br />
mostrato fino a questo momento sono una versione semplificata <strong>di</strong> quello che segue, e sono stati<br />
adottati per semplificare la lettura del documento e non appesantire troppo la grafica):<br />
165
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex. 28 Londra. Gas dalla statua Evacuata la Tate Gallery<br />
<br />
…<br />
LONDRA <br />
.<br />
<br />
Gas <br />
dalla <br />
statua <br />
Evacuata <br />
la <br />
Tate <br />
Gallery <br />
.<br />
<br />
…<br />
Si noti che questo file morfologico contiene l’annotazione morfo-sintattica dell’articolo 001 del<br />
corpus del “Corriere della Sera” (), costituita da una sequenza <strong>di</strong><br />
parole morfologiche (mw) con <strong>di</strong>versi tratti ad esse associati.<br />
Il tratto href del file dell’annotazione funzionale viene co<strong>di</strong>ficato come qui <strong>di</strong> seguito:<br />
Xml Ex. 29 Londra. Gas dalla statua Evacuata la Tate Gallery<br />
funct.xml<br />
…<br />
<br />
…<br />
Ciò vuol <strong>di</strong>re che il , il cui tratto ha il valore<br />
“partec_001”, punta alla parola morfologica 001 (mw_001) che è contenuta<br />
all’interno del file morfologico 001 (morph001) del corpus del “Corriere della<br />
Sera” (cs).<br />
166
Co<strong>di</strong>ce linea e Tema<br />
2.2 L’elemento (relazione funzionale)<br />
Questo elemento, che ricor<strong>di</strong>amo essere incassato all’interno dell’elemento ,<br />
viene utilizzato per co<strong>di</strong>ficare le relazioni funzionali che compaiono all’interno dell’annotazione<br />
funzionale. Per quanto riguarda questo elemento è stata decisa la co<strong>di</strong>fica <strong>di</strong> tre tratti:<br />
relazionefunzionale, partidrefs, e relfunctid.<br />
relazionefunzionale<br />
partidrefs<br />
relfunctid<br />
<br />
<strong>di</strong>p, sogg, comp, mod, arg, pred, non_pred, ogg_d, obl,<br />
<strong>di</strong>sg, cong, legame, concat<br />
[ASCII]<br />
[ASCII]<br />
2.2.1 relazionefunzionale<br />
I possibili valori <strong>di</strong> questo tratto sono tutte le relazioni funzionali contemplate dalle specifiche <strong>di</strong><br />
annotazione, ossia: <strong>di</strong>p, sogg, comp, mod, arg, pred, non_pred, ogg_d, obl, <strong>di</strong>sg,<br />
cong, legame, concat. La tipologia delle relazioni funzionali previste per questo livello <strong>di</strong><br />
annotazione è riportata nelle sezioni 5.1.1.1, 5.1.1.2, 5.1.1.3 e 5.3.1.<br />
2.2.2 partidrefs<br />
Questo tratto ha come possibili valori coppie <strong>di</strong> puntatori interni allo stesso file XML. Questi<br />
puntatori in<strong>di</strong>cano coppie <strong>di</strong> partecipanti, precedentemente definiti in base ai tratti che abbiamo<br />
specificato, ossia quei partecipanti che prendono parte ad una determinata relazione funzionale,<br />
come possiamo vedere nel seguente esempio <strong>di</strong> annotazione.<br />
Xml Ex. 30 Io non so chi ha parlato<br />
Io<br />
non<br />
so<br />
chi<br />
ha<br />
parlato<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
Co<strong>di</strong>ce linea e Tema<br />
partidrefs=”partec_003 partec_002”/><br />
<br />
<br />
…<br />
In questo caso possiamo vedere, per esempio, che la seconda relazione funzionale che<br />
incontriamo, la relazione “mod”, sussiste tra i due partecipanti che hanno come identificativo<br />
“partec_003” e “partec_002” rispettivamente.<br />
2.2.3 relfunctid<br />
Questo tratto ha come possibili valori dei numeri identificativi della relazione in considerazione.<br />
Xml Ex.31<br />
funct.xml<br />
…<br />
<br />
…<br />
In questo caso ve<strong>di</strong>amo che la relazione “mod”, che intercorre tra i partecipanti che hanno<br />
rispettivamente gli identificativi <strong>di</strong> “partec_002” e “partec_001”, ha come numero identificativo<br />
“r_001”, è cioè la prima relazione funzionale del file XML.<br />
2.3 L’elemento <br />
L’elemento costituisce l’unità <strong>di</strong> annotazione al livello funzionale. Al suo<br />
interno, può contenere uno o più elementi <strong>di</strong> tipo e uno o più elementi <strong>di</strong> tipo .<br />
L’elemento è descritto da un solo attributo, che altro non è che<br />
l’identificativo numerico.<br />
id<br />
functional_phrase<br />
[ASCII]<br />
Xml Ex. 32 Gli uomini parlano e sognano sempre <strong>di</strong> un miglioramento<br />
…<br />
<br />
…<br />
funct.xml<br />
168
Co<strong>di</strong>ce linea e Tema<br />
3 Esempi<br />
Segue una breve esemplificazione <strong>di</strong> annotazioni funzionali in XML.<br />
3.1 Costruzioni con verbo intransitivo<br />
Cfr. sezione 5.2.2.1.<br />
Xml Ex. 33 Gli uomini parlano e sognano sempre <strong>di</strong> un miglioramento<br />
Gli<br />
uomini<br />
parlano<br />
e<br />
sognano<br />
sempre<br />
<strong>di</strong><br />
un<br />
miglioramento<br />
…<br />
mword.xml<br />
funct.xml<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
169
Co<strong>di</strong>ce linea e Tema<br />
3.2 Costruzioni con verbo intransitivo inaccusativo<br />
Cfr. sezione 5.2.2.2.<br />
Xml Ex. 34 Gli studenti erano giunti nella zona alla spicciolata<br />
Gli<br />
studenti<br />
erano<br />
giunti<br />
nella<br />
zona<br />
alla<br />
spicciolata<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
Xml Ex. 35 Slitta la riunione, prevista per oggi, della cosiddetta<br />
commissione Sangalli<br />
Slitta<br />
la<br />
riunione<br />
prevista<br />
per<br />
oggi<br />
della<br />
cosiddetta<br />
commissione<br />
Sangalli<br />
mword.xml<br />
funct.xml<br />
…<br />
Co<strong>di</strong>ce linea e Tema<br />
partec_id=”partec_001”/><br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.3 Costruzioni con verbo transitivo con oggetto <strong>di</strong>retto<br />
Cfr. sezione 5.2.2.3.<br />
Xml Ex. 36 Carnevale ha sbagliato un gol quasi fatto<br />
Carnevale<br />
ha<br />
sbagliato<br />
un<br />
gol<br />
quasi<br />
fatto<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
171
Co<strong>di</strong>ce linea e Tema<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.4 Costruzioni con verbo transitivo con oggetto in<strong>di</strong>retto<br />
Cfr. sezione 5.2.2.4.<br />
Xml EX. 37 Gullit ha <strong>di</strong>chiarato guerra alla stampa sportiva<br />
Gullit<br />
ha<br />
<strong>di</strong>chiarato<br />
guerra<br />
alla<br />
stampa<br />
sportiva<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Co<strong>di</strong>ce linea e Tema<br />
partidrefs=”partec_005 partec_006”/><br />
…<br />
3.5 Costruzioni con verbo transitivo con complemento obliquo<br />
Cfr. sezione 5.2.2.5.<br />
Xml Ex. 38 La Bimex importa prodotti dalla Union Carbide<br />
La<br />
Bimex<br />
importa<br />
prodotti<br />
dalla<br />
Union<br />
Carbide<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.6 Costruzioni passive<br />
Cfr. sezione 5.2.2.6.<br />
Xml Ex. 39 I due malavitosi sono stati spesso segnalati in <strong>di</strong>verse occasioni<br />
I<br />
due<br />
malavitosi<br />
sono<br />
stati<br />
mword.xml<br />
173
Co<strong>di</strong>ce linea e Tema<br />
spesso<br />
segnalati<br />
in<br />
<strong>di</strong>verse<br />
occasioni<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
Xml Ex. 40 L’accordo è stato firmato ieri al Pentagono dal ministro<br />
americano<br />
L’<br />
accordo<br />
è<br />
stato<br />
firmato<br />
ieri<br />
al<br />
Pentagono<br />
dal<br />
ministro<br />
americano<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
174
Co<strong>di</strong>ce linea e Tema<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.7 Costruzioni con completive sottocategorizzate<br />
Cfr.sezione 5.2.2.7.<br />
Xml Ex. 41 Giovanni ha visto Maria correre<br />
Giovanni<br />
ha<br />
visto<br />
Maria<br />
correre<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
175
Co<strong>di</strong>ce linea e Tema<br />
3.8 Costruzioni con interrogative in<strong>di</strong>rette<br />
Cfr. sezione5.2.2.8.<br />
Xml Ex. 56 Io non so chi ha parlato<br />
mword.xml<br />
Io<br />
non<br />
so<br />
chi<br />
ha<br />
parlato<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.9 Costruzioni con mo<strong>di</strong>ficazione frasale (gerun<strong>di</strong>ve, participiali, infinitive)<br />
Cfr. sezione 5.2.2.9.<br />
Xml Ex. 42 Gli evasori hanno aggre<strong>di</strong>to gli agenti <strong>di</strong> custo<strong>di</strong>a sparando<br />
all’impazzata<br />
Gli<br />
evasori<br />
hanno<br />
aggre<strong>di</strong>to<br />
gli<br />
agenti<br />
<strong>di</strong><br />
custo<strong>di</strong>a<br />
mword.xml<br />
176
Co<strong>di</strong>ce linea e Tema<br />
sparando<br />
all’<br />
impazzata<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.10 Costruzioni con complementi pre<strong>di</strong>cativi del soggetto e dell’oggetto<br />
Cfr. sezione 5.2.2.10.<br />
Xml Ex. 43 Maria sembra felice<br />
Maria<br />
sembra<br />
felice<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
177
Co<strong>di</strong>ce linea e Tema<br />
<br />
<br />
<br />
3.11 Complementazione <strong>di</strong> nomi e aggettivi<br />
Cfr. sezione 5.2.2.11.<br />
Xml Ex. 44 Il Parlamento incomincerà un <strong>di</strong>battito sulla partecipazione al<br />
programma<br />
Il<br />
Parlamento<br />
incomincerà<br />
un<br />
<strong>di</strong>battito<br />
sulla<br />
partecipazione<br />
al<br />
programma<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
178
Co<strong>di</strong>ce linea e Tema<br />
3.12 Negazione<br />
Cfr. sezione 5.2.2.12.<br />
Xml Ex. 45 I bambini non devono guardare film violenti<br />
I<br />
bambini<br />
non<br />
devono<br />
guardare<br />
film<br />
violenti<br />
mword.xml<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.13 Costruzioni esistenziali<br />
Cfr. sezione 5.2.2.13.<br />
Xml Ex. 46 C’è una vespa nella mia camera<br />
C’<br />
è<br />
una<br />
vespa<br />
nella<br />
mia<br />
camera<br />
mword.xml<br />
179
Co<strong>di</strong>ce linea e Tema<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.14 Costruzioni coor<strong>di</strong>nate<br />
Cfr.sezione 5.2.3.<br />
Xml Ex. 47 I superstiti e i parenti delle vittime hanno espresso malumore<br />
per la scarcerazione<br />
mword.xml<br />
I<br />
superstiti<br />
e<br />
i<br />
parenti<br />
delle<br />
vittime<br />
hanno<br />
espresso<br />
malumore<br />
per<br />
la<br />
scarcerazione<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
180
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex. 48 La donna sbrigava le faccende <strong>di</strong> casa e doveva avere familiarità<br />
con i cani<br />
mword.xml<br />
La<br />
donna<br />
sbrigava<br />
le<br />
faccende<br />
<strong>di</strong><br />
casa<br />
e<br />
doveva<br />
avere<br />
confidenza<br />
con<br />
i<br />
cani<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
Xml Ex.49 Il fatturato complessivo delle società controllate e collegate è<br />
elevato<br />
mword.xml<br />
Il<br />
fatturato<br />
complessivo<br />
delle<br />
società<br />
controllate<br />
e<br />
collegate<br />
è<br />
elevato<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
181
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex. 50 Il mun<strong>di</strong>al <strong>di</strong> calcio termina con la finalissima <strong>di</strong> domenica sera<br />
e con i risultati conosciuti<br />
mword.xml<br />
Il<br />
mun<strong>di</strong>al<br />
<strong>di</strong><br />
calcio<br />
termina<br />
con<br />
la<br />
finalissima<br />
<strong>di</strong><br />
domenica<br />
sera<br />
e<br />
con<br />
i<br />
risultati<br />
conosciuti<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
Xml Ex. 51 …il bilancio ha ottenuto risultati <strong>di</strong> rilievo, in campo economico<br />
e sindacale, ma anche sul fronte dell’autonomia …<br />
mword.xml<br />
il<br />
bilancio<br />
ha<br />
ottenuto<br />
risultati<br />
<strong>di</strong><br />
rilievo<br />
in<br />
campo<br />
economico<br />
e<br />
sindacale<br />
ma<br />
anche<br />
sul<br />
fronte<br />
dell’<br />
autonomia<br />
funct.xml<br />
…<br />
<br />
…<br />
<br />
…<br />
Co<strong>di</strong>ce linea e Tema<br />
partidrefs=”partec_005 partec_009”/><br />
…<br />
3.15 Con<strong>di</strong>visione <strong>di</strong> complementi in costruzioni coor<strong>di</strong>nate<br />
Cfr. sezione 5.2.3.<br />
Xml Ex. 52 L’assemblea <strong>di</strong> ieri ha confermato Eugenio Scalari ed ha<br />
deliberato <strong>di</strong> aumentare il numero <strong>di</strong> consiglieri<br />
mword.xml<br />
L’<br />
assemblea<br />
<strong>di</strong><br />
ieri<br />
ha<br />
confermato<br />
Eugenio<br />
Scalfari<br />
ed<br />
ha<br />
deliberato<br />
<strong>di</strong><br />
aumentare<br />
il<br />
numero<br />
dei<br />
consiglieri<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
3.16 Ellissi del soggetto<br />
Cfr. sezione 5.2.4.1.<br />
Xml Ex. 53 Abbiamo visto l’opera nella piazza del paese<br />
Abbiamo<br />
visto<br />
l’<br />
opera<br />
nella<br />
piazza<br />
del<br />
paese<br />
mword.xml<br />
183
Co<strong>di</strong>ce linea e Tema<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
3.17 Ellissi del verbo<br />
Cfr. sezione 5.2.4.2.<br />
Xml Ex.54 Gli esempi sono scritti in corsivo, le glosse in stampatello<br />
mword.xml<br />
Gli<br />
esempi<br />
sono<br />
scritti<br />
in<br />
corsivo<br />
le<br />
glosse<br />
in<br />
stampatello<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
184
Co<strong>di</strong>ce linea e Tema<br />
3.18 Relazioni <strong>di</strong> coreferenza<br />
Cfr. sezione 5.2.5.<br />
Xml Ex. 55 Prost lascia la McLaren per una Ferrari che non cammina<br />
mword.xml<br />
Prost<br />
lascia<br />
la<br />
McLaren<br />
per<br />
una<br />
Ferrari<br />
che<br />
non<br />
cammina<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
3.19 Car<strong>di</strong>nalità complessa<br />
Cfr. sezione 5.2.10.2.<br />
Xml Ex. 57 Sfiora i 4 mila miliar<strong>di</strong><br />
mword.xml<br />
Sfiora<br />
i<br />
4<br />
mila<br />
miliar<strong>di</strong><br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
3.20 Nomi propri<br />
Cfr. sezione 5.2.10.3.<br />
185
Co<strong>di</strong>ce linea e Tema<br />
Xml Ex. 58 …Lamberto Dini…<br />
mword.xml<br />
Lamberto<br />
Dini<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
Xml Ex. 59 Carlo Azeglio Ciampi<br />
mword.xml<br />
Carlo<br />
Azeglio<br />
Ciampi<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
…<br />
<br />
<br />
…<br />
3.21 Costruzioni pre<strong>di</strong>cative particolari<br />
Cfr. sezione 5.2.6.<br />
Xml Ex. 60 Fare da autista<br />
mword.xml<br />
Fare<br />
da<br />
autista<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
186
Co<strong>di</strong>ce linea e Tema<br />
3.22 Costruzioni causative<br />
Cfr. sezione 5.2.7.<br />
Xml Ex. 61 Io ho fatto rispettare la legge<br />
mword.xml<br />
Io<br />
ho<br />
fatto<br />
rispettare<br />
la<br />
legge<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
…<br />
3.23 Costruzioni partitive<br />
Cfr. sezione 5.2.8.<br />
Xml Ex. 62 Dello stile impero sopravvive una certa indulgenza<br />
mword.xml<br />
Dello<br />
stile<br />
impero<br />
sopravvive<br />
una<br />
certa<br />
indulgenza<br />
funct.xml<br />
…<br />
<br />
<br />
…<br />
<br />
…<br />
187
Co<strong>di</strong>ce linea e Tema<br />
3.24 Superlativo assoluto<br />
Cfr. sezione 5.2.9.1.<br />
Xml Ex. 63 Paolo è il più bello<br />
mword.xml<br />
Paolo<br />
è<br />
il<br />
più<br />
bello<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
…<br />
<br />
<br />
…<br />
3.25 Superlativo relativo<br />
Cfr sezione 5.2.9.1.<br />
Xml Ex.64 Il ragazzo più prestigioso d’America<br />
mword.xml<br />
Il<br />
ragazzo<br />
più<br />
prestigioso<br />
d’<br />
America<br />
funct.xml<br />
…<br />
<br />
<br />
<br />
<br />
…<br />
<br />
188
Co<strong>di</strong>ce linea e Tema<br />
<br />
<br />
…<br />
189
Co<strong>di</strong>ce linea e Tema<br />
Appen<strong>di</strong>ce 3 - Annotazione semantico-lessicale: rappresentazione in<br />
XML<br />
1 Introduzione<br />
In questa sezione descriviamo il modo in cui viene rappresentato in formato XML lo schema per<br />
l’annotazione semantico-lessicale della <strong>Treebank</strong> <strong>di</strong> SI-TAL. L'annotazione semantico-lessicale<br />
implica gli aspetti seguenti:<br />
• identificazione delle unità <strong>di</strong> senso;<br />
• classificazione delle unità <strong>di</strong> senso in unità semplici (corrispondenti ad una singola parola<br />
ortografica), oppure <strong>di</strong> tipo complesso (espressioni polilessicali come composti, i<strong>di</strong>omi, ecc.) o<br />
<strong>di</strong> tipo titolo, ovvero parole sia semplici che complesse che occorrano nei titoli<br />
• assegnazione, per ogni tipo <strong>di</strong> unità semantica, <strong>di</strong> un numero <strong>di</strong> senso;<br />
• espressione <strong>di</strong> tratti <strong>di</strong> tipo semantico, che convoglino informazioni semantico-lessicali, oppure<br />
ad uso dell’annotatore;<br />
Nelle pagine seguenti descriviamo le strategie usate per rappresentare in XML queste<br />
informazioni.<br />
2 Elementi <strong>di</strong> markup<br />
Gli elementi <strong>di</strong> markup per l’annotazione semantica sono i seguenti, in or<strong>di</strong>ne gerarchico:<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Brevemente, il rapporto tra gli elementi <strong>di</strong> markup sta ad in<strong>di</strong>care che l’unità <strong>di</strong> analisi maggiore<br />
è un costrutto denominato “frase semantica” (), corrispondente all’insieme <strong>di</strong> unità<br />
semantiche o forme analizzate in una frase annotata al livello morfosintattico. Una frase semantica è<br />
costituita a sua volta da unità <strong>di</strong> senso, ulteriormente classificate in unità semantiche semplici<br />
, <strong>di</strong> tipo complesso , o <strong>di</strong> tipo titolo .<br />
2.1 <br />
Questo elemento è usato per marcare l’annotazione semantica del corrispondente morfologico <strong>di</strong><br />
una frase. Un elemento contiene un numero n <strong>di</strong> unità semantiche (semplici,<br />
190
Co<strong>di</strong>ce linea e Tema<br />
complesse o titolo), corrispondenti all’annotazione semantica delle parole semanticamente piene<br />
che occorrono all’interno <strong>di</strong> quella determinata frase.<br />
Diamo <strong>di</strong> seguito una esemplificazione <strong>di</strong> quanto detto:<br />
cs-morph-015: (…) Non pago degli insulti, il corazziere avrebbe aggiunto anche la minaccia <strong>di</strong><br />
un attentato, parlando <strong>di</strong> una bomba pronta a far saltare in aria il capo dello Stato. Il nome del<br />
carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma) è “top secret”, ma la<br />
vicenda è stata denunciata alla magistratura e il procuratore militare Antonino Intelisano<br />
ha aperto un’inchiesta per il reato <strong>di</strong> offesa all’onore del Presidente della Repubblica.<br />
L’allarme è scattato alla fine della scorsa settimana. (…)<br />
sem.xml<br />
<br />
<br />
<br />
…<br />
<br />
L’elemento dell’annotazione riportata in esempio racchiude tutte le annotazioni<br />
semantiche relative alle parole semanticamente piene che occorrono nella frase n. 10 del file “cs-<br />
015”, come specificato dall’attributo id.<br />
2.2 :unità semantica semplice<br />
Questo elemento è usato per marcare una singola parola semanticamente piena. La co<strong>di</strong>fica<br />
dell’elemento presuppone il markup morfologico delle parole. Questo vuol <strong>di</strong>re, nel<br />
dettaglio, che tramite la co<strong>di</strong>fica del tratto dell’elemento , lo stesso elemento <br />
punta <strong>di</strong>rettamente alla corrispondente parola morfologica (analogamente a quanto spiegato per<br />
l’annotazione sintattica). L’elemento viene tecnicamente definito vuoto (empty), in quanto<br />
non contiene al suo interno degli elementi <strong>di</strong> livello gerarchico inferiore. L’esempio seguente<br />
riassume sinteticamente i tratti relativi alla rappresentazione delle unità semantiche semplici:<br />
10.cs-015: Il nome del carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma)<br />
è “top secret”, ma la vicenda è stata denunciata alla magistratura e il procuratore militare<br />
Antonino Intelisano ha aperto un’inchiesta per il reato <strong>di</strong> offesa all’onore del Presidente<br />
della Repubblica.<br />
cs.morph015.xml<br />
Il <br />
nome <br />
del <br />
carabiniere <br />
191
Co<strong>di</strong>ce linea e Tema<br />
(<br />
<br />
i <br />
corazzieri <br />
sono <br />
infatti <br />
un <br />
reparto <br />
speciale <br />
…<br />
10.cs-015.xml<br />
<br />
<br />
<br />
<br />
<br />
…<br />
<br />
I tratti pertinenti per la co<strong>di</strong>fica <strong>di</strong> un’unità semantica semplice sono i seguenti: ussid, href,<br />
dbref, numero_senso, tipolemma, alterazione, figurato, nome_proprio, commento, nota.<br />
Nell’esempio precedente sono state evidenziate le parole morfologiche corrispondenti alle unità<br />
semantiche semplici. Di seguito illustriamo brevemente il significato dei tratti associati all’elemento<br />
, rappresentati in XML come insieme <strong>di</strong> attributi sia obbligatori che opzionali.<br />
<br />
ussid<br />
href<br />
dbref<br />
numero_senso<br />
ID<br />
<br />
(gen|eco)<br />
CDATA<br />
192
Co<strong>di</strong>ce linea e Tema<br />
tipolemma<br />
alterazione<br />
figurato<br />
nome_proprio<br />
commento<br />
nota<br />
CDATA<br />
CDATA<br />
CDATA<br />
CDATA<br />
CDATA<br />
CDATA<br />
(CDATA nel linguaggio <strong>di</strong> markup XML in<strong>di</strong>ca qualsiasi tipo <strong>di</strong> stringa <strong>di</strong> testo)<br />
2.2.1 ussid<br />
L’attributo ussid serve per identificare univocamente l’unità semantica semplice all’interno<br />
dell’elemento . Il valore dell’attributo è un valore numerico inizializzato a zero.<br />
<br />
<br />
<br />
<br />
<br />
…<br />
<br />
10.cs-015.xml<br />
2.2.2 href<br />
L’attributo href è usato per identificare il corrispondente morfologico della parola annotata<br />
semanticamente. Il valore dell’attributo è sempre un identificatore <strong>di</strong> parola morfologica, ovvero un<br />
valore numerico che nel file <strong>di</strong> annotazione morfologica a sua volta identifica univocamente un<br />
elemento .<br />
<br />
Co<strong>di</strong>ce linea e Tema<br />
/><br />
<br />
<br />
<br />
…<br />
<br />
dbref="gen"<br />
numero_senso="4"<br />
ussid="0"<br />
href="mw_171"<br />
dbref="gen"<br />
numero_senso="1"<br />
ussid="1"<br />
href="mw_173"<br />
dbref="gen"<br />
numero_senso="1"<br />
ussid="2"<br />
href="mw_176"<br />
dbref="gen"<br />
numero_senso="1"<br />
ussid="3"<br />
href="mw_180"<br />
2.2.3 dbref<br />
L’attributo dbref serve per specificare l’appartenenza dell’unità semantica annotata ad una delle<br />
due componenti che costituiscono il complesso del corpus <strong>di</strong> <strong>Treebank</strong>. Il valore gen corrisponde<br />
alla componente generica (o IWN-Gen), quello eco alla componente economica (EcoWN); cfr<br />
sezione 6.2.1. L’attributo è opzionale.<br />
<br />
<br />
<br />
<br />
Co<strong>di</strong>ce linea e Tema<br />
href="mw_180"<br />
/><br />
…<br />
<br />
2.2.4 numero_senso<br />
L’attributo numero_senso contiene come valore un numero <strong>di</strong> senso presente in ItalWordNet (o<br />
una sequenza congiunta o <strong>di</strong>sgiunta <strong>di</strong> sensi quando più sensi <strong>di</strong> ItalWordNet possono essere<br />
applicati congiuntamente o <strong>di</strong>sgiuntamente alla stessa occorrenza). Altri valori possibili da associare<br />
all’attributo in esame sono etichette convenzionali la cui forma e significato sono ampiamente nella<br />
sezione 6.2.2. L’attributo deve essere obbligatoriamente specificato.<br />
<br />
<br />
<br />
<br />
<br />
…<br />
<br />
10.cs-015.xml<br />
2.2.5 tipolemma<br />
L’attributo tipolemma è usato per annotare informazione semantico-lessicale associata alla<br />
parola annotata, ad esempio se si tratti <strong>di</strong> un neologismo o <strong>di</strong> una forma <strong>di</strong>alettale. L’attributo è<br />
opzionale. Cfr sezione 6.2.9.<br />
2.2.6 alterazione<br />
L’attributo alterazione (opzionale) co<strong>di</strong>fica il grado <strong>di</strong> alterazione della forma annotata<br />
rispetto al lemma. Valori possibili dell’attributo sono etichette mnemoniche, definibili dall’utente.<br />
195
Co<strong>di</strong>ce linea e Tema<br />
Le etichette utilizzate durante l’annotazione <strong>di</strong> <strong>Treebank</strong> sono ad esempio <strong>di</strong>m (<strong>di</strong>minutivo), accr<br />
(accrescitivo), <strong>di</strong>spr (<strong>di</strong>spregiativo), vezz (vezzeggiativo), sup (superlativo), compar<br />
(comparativo), e alter (per tutti i casi <strong>di</strong>versi dai precedenti). Cfr sezione 6.2.5.<br />
2.2.7 figurato<br />
L’attributo figurato (opzionale) registra la presenza <strong>di</strong> un uso figurato non lessicalizzato del<br />
senso <strong>di</strong> una singola parola. Valori possibili dell’attributo sono etichette mnemoniche, definibili<br />
dall’utente. Le etichette utilizzate durante l’annotazione <strong>di</strong> <strong>Treebank</strong> sono ad esempio metaf (uso<br />
metaforico), meton (uso metonimico), fig (per tutti gli usi figurati <strong>di</strong>versi dai precedenti). Cfr<br />
sezione 6.2.6.<br />
cs-015.xml<br />
il <br />
procuratore <br />
militare <br />
Antonino <br />
Intelisano <br />
ha <br />
aperto <br />
un' <br />
inchiesta <br />
10.cs-015.xml<br />
<br />
…<br />
<br />
…<br />
<br />
2.2.8 nome_proprio<br />
L’attributo nome_proprio (opzionale) può essere usato per l’annotazione <strong>di</strong> nomi propri, e<br />
consente <strong>di</strong> ricondurre il nome proprio ad una specifica classe semantica <strong>di</strong> ItalWordNet. Valori<br />
possibili dell’attributo sono etichette mnemoniche, definibili dall’utente. Le etichette utilizzate<br />
durante l’annotazione <strong>di</strong> <strong>Treebank</strong> sono ad esempio pers (per nomi propri <strong>di</strong> persona), grup (per i<br />
nomi propri che si riferiscono a gruppi <strong>di</strong> persone), luogo (per i nomi propri <strong>di</strong> luogo), man (per i<br />
196
Co<strong>di</strong>ce linea e Tema<br />
nomi propri <strong>di</strong> manufatti e prodotti in genere), np (per tutti i casi <strong>di</strong>versi dai precedenti). Cfr sezione<br />
6.2.7.<br />
2.2.9 commento<br />
L’attributo commento (opzionale) fornisce un luogo per inserire un commento ad uso<br />
dell’annotatore. Il valore dell’attributo sarà una qualsiasi stringa inserita dall’annotatore. Cfr<br />
sezione 6.2.11.2.<br />
cs-015.xml<br />
il <br />
procuratore <br />
militare <br />
Antonino <br />
Intelisano <br />
ha <br />
aperto <br />
un' <br />
inchiesta <br />
10.cs-015.xml<br />
<br />
…<br />
…<br />
<br />
2.2.10 nota<br />
L’attributo nota (opzionale) fornisce un luogo per inserire dubbi relativi all’assegnazione del<br />
senso. Il valore dell’attributo sarà una qualsiasi stringa inserita dall’annotatore. Cfr sezione 6.2.11.1.<br />
2.3 :unità semantica <strong>di</strong> tipo complesso<br />
Questo elemento è usato per marcare una espressione polilessicale, che al suo interno può<br />
contenere, oltre a parole semanticamente piene, anche parole funzionali semanticamente piena. La<br />
co<strong>di</strong>fica dell’elemento è in tutto e per tutto analoga a quella dell’elemento , tranne per<br />
il fatto <strong>di</strong> contenere al suo interno una rappresentazione degli elementi costitutivi dell’espressione<br />
polilessicale, co<strong>di</strong>ficati come elementi . Questi elementi hanno come unico attributo<br />
197
Co<strong>di</strong>ce linea e Tema<br />
obbligatorio quello necessario per la referenziazione della parola a livello morfologico. L’esempio<br />
seguente riassume sinteticamente i tratti relativi alla rappresentazione delle unità semantiche <strong>di</strong> tipo<br />
complesso:<br />
10.cs-015: Il nome del carabiniere (i corazzieri sono infatti un reparto speciale dell’Arma)<br />
è “top secret”, ma la vicenda è stata denunciata alla magistratura e il procuratore militare<br />
Antonino Intelisano ha aperto un’inchiesta per il reato <strong>di</strong> offesa all’onore del Presidente<br />
della Repubblica.<br />
cs.morph015.xml<br />
…<br />
presidente <br />
della <br />
Repubblica <br />
…<br />
10.cs-015.xml<br />
<br />
…<br />
<br />
<br />
<br />
<br />
<br />
…<br />
<br />
Come si può notare dall’esempio, le uniche <strong>di</strong>fferenze (evidenziate in neretto) dell’insieme <strong>di</strong><br />
attributi dell’elemento rispetto a quello dell’elemento sono date dalla presenza degli<br />
attributi obbligatori lemma, pos, e tipo, che in<strong>di</strong>cano, rispettivamente, il lemma <strong>di</strong> riferimento, la<br />
categoria grammaticale, ed il tipo <strong>di</strong> espressione polilessicale (ad esempio un composto, un i<strong>di</strong>oma,<br />
o una costruzione con verbo supporto). Sempre in confronto all’elemento , inoltre,<br />
l’elemento non possiede invece l’attributo alterazione.<br />
2.4 :unità semantica <strong>di</strong> tipo titolo<br />
Questo elemento è usato per l’annotazione dei titoli e per <strong>di</strong>fferenziarli dal restante contesto. Può<br />
riferirsi o ad una singola parola o ad un insieme <strong>di</strong> parole a<strong>di</strong>acenti, incluse eventuali parole<br />
grammaticali. Rispetto agli attributi specificati per l’elemento , l’elemento si<br />
<strong>di</strong>fferenzia per possedere in aggiunta gli attributi lemma, pos e tipo, usati, rispettivamente, per<br />
annotare il lemma <strong>di</strong> riferimento, la categoria grammaticale, ed il tipo <strong>di</strong> entità alla quale il titolo si<br />
198
Co<strong>di</strong>ce linea e Tema<br />
riferisce. Non sono invece rilevanti per questo elemento gli attributi tipolemma, alterazione,<br />
figurato e nome_proprio.<br />
Analogamente all’elemento , l’elemento può contenere al suo interno uno o più<br />
elementi .<br />
3 DTD<br />
Ricapitoliamo quanto detto in precedenza riportando la DTD per il livello <strong>di</strong> annotazione<br />
semantico-lessicale:<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
Co<strong>di</strong>ce linea e Tema<br />
commento CDATA #IMPLIED<br />
nota CDATA #IMPLIED<br />
ustid ID #REQUIRED><br />
200