2 I dizionari fondamentali e di frequenza della lingua italiana

More documents

Recommendations

Info

applicazioni dictionary-based (Chiari 2007: 85), in cui il termine è usato per descrivere repertori contenenti liste di parole che servono a svolgere determinate operazioni: disambiguare la categoria grammaticale, riconoscere o produrre una forma fonetica ecc. In questo senso il dizionario non contiene definizioni dei significati e degli usi di una parola, ma è un repertorio di lemmi o forme flesse associate a una serie di informazioni linguistiche supplementari, disponibili all’accesso delle applicazioni computazionali. Il termine dizionario macchina indica appunto la relazione stretta tra repertorio lessicale e applicazioni computazionali che svolgono operazioni facendo ricorso a tale repertorio. Una specie di dizionario macchina è il lessico di frequenza che, nato inizialmente come strumento di pura investigazione linguistica, è entrato a far parte di numerose applicazioni computazionali di trattamento automatico del linguaggio. Le applicazioni più diffuse sono il riconoscimento e la sintesi vocale, la correzione ortografica, il parsing sintattico e il tagging, la traduzione automatica, e in generale tutte le applicazioni che incorporano un vocabolario. 4.3.2 Trattamento automatico del linguaggio Il Natural Language Processing (NLP), detto in italiano il trattamento automatico del linguaggio (TAL) è uno dei settori fondamentali della linguistica computazionale. L’obiettivo di questo approccio, legato strettamente all’intelligenza artificiale, è lo svolgimento di compiti linguistici produttivi o ricettivi da parte di sistemi informatici. Il dominio principale, su cui si applica è, conformemente alla tradizione generativa, la sintassi, tuttavia negli ultimi anni sono emersi alcuni altri campi di ricerca, come l’estrazione di conoscenze da documenti testuali o il reperimento di specifici dati estratti da grandi database testuali. Dall’integrazione dei programmi tradizionali con i metodi statistici è nato un nuovo campo di ricerca della linguistica computazionale, il c.d. Statistical Natural Language Processing, volto a migliorare le capacità di produzione o di analisi di frasi, servendosi di dati statistici. Il presupposto di base è che parlando o ascoltando, si ricorre, inconsciamente, a considerazioni sulle frequenze, ad esempio sulla frequenza con cui troviamo due parole una accanto all’altra in sequenza. I metodi statistici sono particolarmente vantaggiosi in diversi settori della linguistica computazionale, come il tagging grammaticale e il parsing sintattico. Il parsing sintattico. Il parsing è un processo d’analisi che associa ad una frase di una lingua naturale una struttura che descrive la frase da un certo punto di vista (Chiari 2007: 101). Questo processo è considerato il nucleo dell’analisi delle lingue naturali. Il termine parsing indica una segmentazione linguistica: esistono parser morfologici, sintattici (il tipo canonico), semantici ecc. L’input al solito è costituito da una frase, cui si applicano alcune regole che permettono di produrre l’analisi della sua struttura. Per ottenere l’output desiderato, è necessario consultare un dizionario macchina, in cui sono presenti le parole della lingua e la loro categoria grammaticale (v. sopra), e il confronto con una grammatica di riferimento che definisce le regole di buona formazione di una frase in una data lingua. Un parser sintattico individua quindi le relazioni tra i costituenti della frase, le loro gerarchie ed attribuisce ad ogni forma della frase un’etichettatura di categoria grammaticale. Il primo parser sintattico per l’italiano (ATN-SYS) è stato implementato nel 1976 presso l’Istituto di Linguistica Computazionale del Consiglio Nazionale delle Ricerche a Pisa. Tra i suoi componenti principali troviamo, accanto ad una grammatica 112
complessa, un largo dizionario di 17.000 entrate: un sottoinsieme del Dizionario Macchina Italiano (DMI), selezionato sulla base del LIF. Il parsing serve a numerosi scopi, una delle sue applicazioni più interessanti è l’annotazione automatica di grandi corpora. Il progetto più conosciuto di corpus sottoposto a parsing sintattico è il Penn Treebank dell’Univeristà di Pennsilvania, divenuto un punto di riferimento per la valutazione dell’efficienza degli strumenti di parsing. Mentre il parsing sintattico di tipo tradizionale opera con regole definite (rule-based parsing), esistono tuttavia forme di parsing probabilistico, in cui alle regole grammaticali sono aggiunte informazioni relative alla probabilità d’occorrenza misurata sulla base di un corpus di riferimento annotato. Questo tipo di parsing usa algoritmi statistici per determinare quali etichette e gerarchie sono più probabili in dati contesti (cfr. Chiari 2007: 104). Il tagging grammaticale. Il POS (part of speech) tagging, ossia l’etichettatura per categorie grammaticali, è, rispetto al parsing, un’operazione notevolmente più semplice. Il tagger non individua le categorie sintattiche, ma semplicemente la parte del discorso che una parola ricopre in una data frase (cfr. Chiari 2007: 106). Anche il tagger si serve di un dizionario che ha lo scopo di specificare quali categorie grammaticali possono corrispondere a ciascuna forma grafica. La disambiguazione delle forme omografiche può essere di due tipi: esistono tagger basati su regole e tagger di tipo probabilistico. I primi accedono ad una grammatica in cui sono formalizzate le regole di formazione dei diversi possibili sintagmi di una lingua, mentre i secondi si basano su statistiche di frequenza delle parti del discorso e delle loro sequenze. 24 Per fornire i dati sulle frequenze, si usano dei corpora testuali annotati in modo manuale, chiamati training corpora, giacché servono ad “allenare” il tagger a produrre delle predizioni corrette. Allenare vuol dire: considerare una percentuale significativa di testi del tipo che si sta analizzando, cui si attribuisce manualmente la marca grammaticale al fine di insegnare al programma quale marca è più probabile in determinati contesti. Chiari (2007: 108) rileva che i tagger probabilistici usati per l’analisi di corpora inglesi, raggiungono un grado di copertura corretta di etichette pari al 97-99% delle occorrenze. 25 Tagger e parser probabilistici sono stati sviluppati per l’annotazione del corpus LIP. De Mauro et al. (1993: 64-76) hanno sviluppato un programma di analisi morfo-sintattica, basato su criteri statistici, in cui l’assegnazione delle categorie grammaticali si basa sulle frequenze con cui determinate sequenze di classi grammaticali sono state osservate in un particolare corpus campione. Uno dei software più potenti di analisi morfo-sintattica dei testi è INTEX, ideato in Francia nel 1993 da Max Silberztein, il cui modulo italiano è stato costruito nel 2004 dall’Università di Salerno. INTEX è un analizzatore automatico di testi che consente di effettuare operazioni di tagging e parsing, information retrieval, di costruire grammatiche, dizionari elettronici, concordanze, ecc. 26 24 Il processo di disambiguazione morfologica, adottato nell’analisi del Webcorpus ungherese, è presentato in Kornai et al. (2006). L’analisi morfologica si basa sui dati statistici del paradigma di flessione nominale. In base alla probabilità d’occorrenza delle singole desinenze, il modello è in grado di predire quanto grande deve essere il corpus in cui una determinata forma occorre almeno una volta. 25 Il British National Corpus, costituito da 100 milioni d’occorrenze è stato etichettato tramite il tagger probabilistico CLAWS (Constituent Likelihood Automatic Word-tagging System); per individuare il campo semantico delle occorrenze è stato costruito un sistema di tagging semantico chiamato ACASD (Automatic Content Analysis of Spoken Discourse). 26 Il modulo ungherese è stato elaborato dall’Istituto di Linguistica dell’Accademia Ungherese delle Scienze, ed è disponibile dal 2004 sul sito (http://corpus.nytud.hu/INTEX/). Un altro programma d’analisi morfologica, sviluppata su basi euristiche dalla società Morphologic appositamente per la lingua 113
Page 1 and 2:
INDICE 0 Premessa..................
Page 3 and 4:
2.2.28De Mauro T., Moroni G. (1997b
Page 5 and 6:
0 Premessa L’insegnamento dell’
Page 7 and 8:
Giacalone Ramat (1993: 347) in uno
Page 9 and 10:
“parecchie persone di parecchie c
Page 11 and 12:
1 Dizionari di frequenza e vocabola
Page 13 and 14:
Quanto alla disposizione delle entr
Page 15 and 16:
nel Lessico di frequenza della ling
Page 17 and 18:
appresentativi della lingua in ogge
Page 19 and 20:
hanno cercato di creare un campione
Page 21 and 22:
dovute al cambio di categoria gramm
Page 23 and 24:
Con il miglioramento delle competen
Page 25 and 26:
Sempre in merito al grado di copert
Page 27 and 28:
logico l’intento di offrire ai di
Page 29 and 30:
(1936) ha sviluppato criteri aggiun
Page 31 and 32:
forte dipendenza dal contesto. Per
Page 33 and 34:
Un’altra iniziativa che prende sp
Page 35 and 36:
comunicativo. Il principio basilare
Page 37 and 38:
1.2.4 Problemi di applicazione I co
Page 39 and 40:
I risultati dei conteggi di frequen
Page 41 and 42:
Mauro et al. 1980, VELI 1989, Kater
Page 43 and 44:
omesse le parole grammaticali, le p
Page 45 and 46:
testo normale (pp. 109-212). Le par
Page 47 and 48:
l’occorrenza dei termini di frequ
Page 49 and 50:
lemmi diventa stabile. 12 Il fatto
Page 51 and 52:
Nel vocabolario d’alta disponibil
Page 53 and 54:
L’opera è stata pubblicata nell
Page 55 and 56:
descrittivo e applicativo” (Batin
Page 57 and 58:
2.2.21 Cannella M. (a cura di) (199
Page 59 and 60:
(trasmissioni radiofoniche o televi
Page 61 and 62: sembra che meno di 1.500 lemmi rapp
Page 63 and 64: lavoro, i trasporti, le comunicazio
Page 65 and 66: dell’Università di Firenze (LABL
Page 67 and 68: Possiamo sintetizzare i risultati d
Page 69 and 70: spagnolo (e il portoghese nell’ed
Page 71 and 72: I lavori con un numero inferiore di
Page 73 and 74: Considerata questa fervente attivit
Page 75 and 76: (Nemes 1933, Cser 1939, Nemes 1941)
Page 77 and 78: 1.000 bambini. Nella lista sono sta
Page 79 and 80: Il corpus è composto di giornali e
Page 81 and 82: ) Segue la lista alfabetica dei 3.4
Page 83 and 84: competenza sono descritti i requisi
Page 85 and 86: Uno dei più grandi lavori ungheres
Page 87 and 88: 150 milioni di parole, raccolte dal
Page 89 and 90: 4.1.1 La selezione dei lemmi Nella
Page 91 and 92: in più, ogni vocabolo del Battagli
Page 93 and 94: evidentemente circolari ed incompre
Page 95 and 96: ) Definizione in un “linguaggio s
Page 97 and 98: perché sono un importante punto di
Page 99 and 100: fesseria CO festeggiamento CO feten
Page 101 and 102: marcatura separata è riservata agl
Page 103 and 104: intracciare usi nuovi e diversi da
Page 105 and 106: tempo, permetterebbe all’utente d
Page 107 and 108: I primi testi analizzati dal punto
Page 109 and 110: Un esempio di applicazione sistemat
Page 111: legge prevede la semplificazione de
Page 115 and 116: dizionario di riferimento, inteso c
Page 117 and 118: nel settore del trattamento automat
Page 119 and 120: “un livello di capacità predomin
Page 121 and 122: Threshold con sole 500 unità lessi
Page 123 and 124: una tabella di nozioni, alle quali
Page 125 and 126: Gli elementi grammaticali fanno par
Page 127 and 128: I risultati delle ricerche condotte
Page 129 and 130: Gli esami CELI prevedono 5 livelli
Page 131 and 132: 5.2.3 Certificato di Competenza del
Page 133 and 134: 6 Il lessico del manuale Progetto i
Page 135 and 136: Come rilevato, base del corpus di r
Page 137 and 138: correzione degli errori di sopra ha
Page 139 and 140: dubbi ci siamo serviti del Dizionar
Page 141 and 142: Numero di parole 400 300 200 100 0
Page 143 and 144: particolare riguardo alla fascia d
Page 145 and 146: Dis tribuzione delle polire m atich
Page 147 and 148: Ci sono poi alcuni nomi, che sono e
Page 149 and 150: Abbiamo elencato solamente i lemmi
Page 151 and 152: cristiano, fondamentale, unito matr
Page 153 and 154: geografici, in particolare i nomi d
Page 155 and 156: carattere tecnico-specialistico. An
Page 157 and 158: La tabella sottostante raffigura la
Page 159 and 160: glossario, vi troviamo una quantit
Page 161 and 162: Tutto questo conferma non solo a li
Page 163 and 164:
Sono *: le tenete sotto la pioggia
Page 165 and 166:
(1983) che oltre a contenere il les
Page 167 and 168:
Richiamiamo l’attenzione su quint
Page 169 and 170:
fondamentali mancanti vanno inserit
Page 171 and 172:
7 Conclusioni Le considerazioni sov
Page 173 and 174:
Bibliografia ALBANO LEONI F. (2003)
Page 175 and 176:
GIULIANI A., IACOBINI C., THORNTON
Page 177 and 178:
Quadro comune europeo di riferiment
Page 179 and 180:
DE MAURO T. (2003) Nuove parole ita
Page 181 and 182:
BALÁZS G., P. EŐRY V., KISS G., J
Page 183 and 184:
PRESCOTT D. A. (1929) Le Vocabulair
Page 185 and 186:
frequenza assoluta registrata nel c
Page 187 and 188:
all’ora: óránkénti AgPr 5L all
Page 189 and 190:
assunzione: mennybemenetel S 5L 339
Page 191 and 192:
avo!: ügyes, jól van I 1L 6505 br
Page 193 and 194:
che cosa: mi, mit PPr 1L 370 che: m
Page 195 and 196:
coniugazione: igeragozás S 1L # co
Page 197 and 198:
decaffeinato: koffeinmentes Ag 4L #
Page 199 and 200:
dove: hol Avv 0L dove: ahol C 2L 86
Page 201 and 202:
favore: szívesség S 2L 443 febbra
Page 203 and 204:
ghiaccio: jég S 4L 1992 già: már
Page 205 and 206:
incontrare: találkozik V 2QTF 544
Page 207 and 208:
lavarsi: megmosakszik V 4L 862 lava
Page 209 and 210:
meglio: jobban Avv 8L 187 mela: alm
Page 211 and 212:
nessuno: semmilyen Ag 1Q 369 nessun
Page 213 and 214:
panorama, il: panoráma, kilátás
Page 215 and 216:
piovere: esik V 5L 2901 pirateria:
Page 217 and 218:
pronome partitivo: részelő névm
Page 219 and 220:
esponsabile: felelős S 11QTF 1659
Page 221 and 222:
sbrigarsi: igyekszik, siet V 9L 650
Page 223 and 224:
soap opera: szappanopera SPr 10L 2
Page 225 and 226:
strappare: kitép V 10L 2823 stress
Page 227 and 228:
tipico: tipikus Ag 4L 1804 tipo: fa
Page 229 and 230:
venire: jön V 2L 66 ventina: kb. h
show all

2 I dizionari fondamentali e di frequenza della lingua italiana

Create successful ePaper yourself

Delete template?

Save as template?