2 I dizionari fondamentali e di frequenza della lingua italiana

More documents

Recommendations

Info

Estrazione automatizzata di informazioni. Il tagging e il parsing sono strumenti polifunzionali. Applicazioni di questo tipo sono, infatti, usate anche in una serie di settori di enorme interesse commerciale ed applicativo, cui si accenna brevemente: l’information retrieval ed extraction, il text mining, la summarisation. L’indicizzazione automatica serve a produrre analisi rapide dei testi raccolti, attraverso l’identificazione delle parole chiave di un testo, ricorrendo ad analisi sintattiche e probabilistiche. All’individuazione delle parole chiave è strettamente legato l’information retrieval, che permette di individuare, da un insieme ampio di documenti, quelli che soddisfano i nostri criteri di ricerca. In Italia Antonio Zampolli iniziò, già nel ‘69-’70, un progetto con la Camera dei Deputati per la creazione del Dizionario Macchina Italiano (DMI) da usarsi per sistemi di information retrieval sulle leggi. Ormai sono molto diffusi i software di recupero di informazioni in grado di effettuare ricerche su grandi collezioni di testi sulla base di richieste formulate come singole parole o come frasi: l’esempio più comune può essere quello dei motori di ricerca sul web. L’information extraction invece permette di cercare e selezionare i contenuti dei documenti appartenenti ad un insieme. In maniera schematica si può dire che l’information retrieval s’interessa al documento nella sua globalità, in quanto permette di scegliere, da un insieme ampio di documenti, quelli che soddisfano i nostri criteri di ricerca, mentre l’information extraction seleziona le informazioni specifiche all’interno del documento (cfr. Bolasco, Bisceglia, Balocchi 2004: 31). In questi ultimi anni, suscita molto interesse nel filone statistico dell’analisi dei dati testuali, il text mining: si tratta di una delle applicazioni indirizzate ad aziende e istituzioni, le quali, dovendo interagire con enormi masse di materiali testuali spesso disponibili in rete, hanno il problema di selezionare, all’interno di queste fonti smisurate, i dati di loro interesse. Il text mining s’intende come attività di scavare nei testi, intesi come miniere di dati, in cui cercare informazioni di rilievo. Si tratta soprattutto di procedure di categorizzazione, di classificazione e di selezione intelligente di testi o subtesti per estrarre da basi documentali (Bolasco 2005: 335). Applicazioni tipiche sono: smistamento di posta elettronica, ricerche su basi documentali giuridiche, nell’editoria, nelle telecomunicazioni, ecc. La summarization consente di produrre automaticamente riassunti di testi o rapporti estratti da dati strutturati. 27 Tali sistemi accettano come input un testo in linguaggio naturale (un articolo scientifico), insieme con le richieste dell’utente, e produce come output un sommario del tipo specificato. L’estrazione automatizzata si basa su dati statistici. 28 Il correttore ortografico. Una delle applicazioni elementari dei dati di frequenza ricavati di larghi corpora è la programmazione dei strumenti di correzione ortografica. La maggior parte dei correttori ortografici funziona mediante la comparazione con un ungherese, è il software Humor, utilizzato per l’annotazione del corpus storico della lingua ungherese (Magyar Történeti Szövegtár). 27 Una ricerca in corso per l’ungherese è quella di Lengyelné Molnár (2006), volta a creare un programma di estrazione automatizzata off-line, che permetta agli scienziati di generare automaticamente riassunti di studi pubblicati nel proprio campo di ricerca. La base dell’applicazione sarà una lista di frequenza che contiene le radici delle parole più rilevanti di un determinato campo scientifico. 28 Secondo la legge di Zipf l’ambito delle parole significative non coincide con i termini più frequenti nei testi. Ad esempio in un eserciziario di matematica le parole esercizio ed esempio, pur avendo un alto numero d’occorrenza, non sono significative dal punto di vista informativo. Il lessico specifico di un determinato settore si trova tutt’al più nella fascia intermedia delle liste di frequenza. 114
dizionario di riferimento, inteso come repertorio in cui figurano anche le forme flesse delle parole. Il correttore spesso non dispone di un dizionario completo, ma solo di una lista di radici e una serie di regole di scomposizione morfologica che permettono di controllare la plausibilità della forma (Chiari 2007: 111). Il problema più complesso è quello dei suggerimenti per la correzione. Per proporre la parola giusta, il correttore usa, oltre allo spoglio del dizionario di riferimento, algoritmi che prevedono una serie di combinazioni di lettere alfabetiche legittime e frequenti. Le analisi statistiche di tipo probabilistico permettono di individuare i candidati migliori a rappresentare sequenze possibili, probabili e frequenti e di analizzare delle tipologie d’errore più frequenti. Per la correzione degli errori grammaticali si ricorre al tagging che permette di disambiguare le categorie grammaticali e individuare ad es. un mancato accordo. Rimangono tuttavia problemi irrisolti, come la mancanza di una parola dal dizionario di riferimento, o quando il termine errato effettivamente esiste, perciò non è riconosciuto. Un’interessante ricerca per aumentare il grado di copertura dei sistemi di controllo ortografico è stata condotta da Halácsy et al. (2004). La base dei sistemi primitivi di controllo ortografico è la lista delle forme corrette, predisposte in ordine di frequenza. Nell’ungherese, per ottenere un grado di copertura del 50%, bastano 3.000-6.000 forme (prendendo come base di riferimento il Webcorpus ungherese). Questo metodo però ha i suoi limiti, giacché la maggior parte delle forme ricorre una sola volta nei testi, si tratta quindi di hapax, la cui inclusione nelle liste predisposte richiederebbe un enorme lavoro, d’altra parte non migliorerebbe in misura corrispondente il grado di copertura del programma. Pertanto l’analisi morfologica è particolarmente importante nel caso di una lingua come l’ungherese, di cui è impossibile immagazzinare tutte le forme flesse esistenti. È opportuno che il sistema sia in grado di analizzare le flessioni, quindi nel programma di controllo ortografico va implementato anche un analizzatore morfologico. Prima si procede dunque all’immissione delle radici più frequenti, mancanti nella lista, successivamente si analizzano le nuove radici con l’aiuto di HunStem, un programma di tagging morfologico. In accordo alla legge di Zipf è stato verificato che dopo aver introdotto le 100.000 radici più frequenti, la percentuale di forme scoperte era del 5,6%, nel caso di 1 milione di radici 3,2%, con 10 milioni 1,8% e con 100 milioni 1%. Si conclude quindi, che l’esattezza dei sistemi di controllo ortografico dipende in primo luogo dal numero di radici incluse, ma con l’ampliamento dell’inventario, a causa della legge di Zipf, l’esattezza del programma aumenta in misura decrescente. Il sistema T9. Un’altra applicazione basata su dati di frequenza è T9, sviluppata dalla società Tegic, per facilitare l’inserimento delle parole tramite la tastiera del cellulare. Utilizzando un vocabolario integrato, la tecnologia T9 è in grado di prevedere quale parola l’utente sta scrivendo e propone di completarla, risparmiando la pressione dei tasti corrispondenti alle lettere mancanti. In base ai testi da noi di solito inviati, è fatta una scelta previsionale circa la parola più probabile fra le diverse possibili con la combinazione digitata. La nuova versione, XT9 è pensato per essere utilizzato con tutti gli apparecchi elettronici, palmari, computer e riconosce anche testi parlati e scritti a mano sullo schermo dei palmari. Sulla stessa idea si basa iTAP, sistema per l’immissione facilitata dei testi nei cellulari, sviluppato da Motorola. Traduzione automatica dei testi. I progressi del trattamento automatico del linguaggio (in particolare il tagging e il parsing), negli anni Settanta hanno dato nuovo impulso ai progetti di traduzione automatica. Al semplice confronto lessicale sono affiancate componenti d’analisi morfologica, sintattica e disambiguatori semantici. Il primo dei 115
Page 1 and 2:
INDICE 0 Premessa..................
Page 3 and 4:
2.2.28De Mauro T., Moroni G. (1997b
Page 5 and 6:
0 Premessa L’insegnamento dell’
Page 7 and 8:
Giacalone Ramat (1993: 347) in uno
Page 9 and 10:
“parecchie persone di parecchie c
Page 11 and 12:
1 Dizionari di frequenza e vocabola
Page 13 and 14:
Quanto alla disposizione delle entr
Page 15 and 16:
nel Lessico di frequenza della ling
Page 17 and 18:
appresentativi della lingua in ogge
Page 19 and 20:
hanno cercato di creare un campione
Page 21 and 22:
dovute al cambio di categoria gramm
Page 23 and 24:
Con il miglioramento delle competen
Page 25 and 26:
Sempre in merito al grado di copert
Page 27 and 28:
logico l’intento di offrire ai di
Page 29 and 30:
(1936) ha sviluppato criteri aggiun
Page 31 and 32:
forte dipendenza dal contesto. Per
Page 33 and 34:
Un’altra iniziativa che prende sp
Page 35 and 36:
comunicativo. Il principio basilare
Page 37 and 38:
1.2.4 Problemi di applicazione I co
Page 39 and 40:
I risultati dei conteggi di frequen
Page 41 and 42:
Mauro et al. 1980, VELI 1989, Kater
Page 43 and 44:
omesse le parole grammaticali, le p
Page 45 and 46:
testo normale (pp. 109-212). Le par
Page 47 and 48:
l’occorrenza dei termini di frequ
Page 49 and 50:
lemmi diventa stabile. 12 Il fatto
Page 51 and 52:
Nel vocabolario d’alta disponibil
Page 53 and 54:
L’opera è stata pubblicata nell
Page 55 and 56:
descrittivo e applicativo” (Batin
Page 57 and 58:
2.2.21 Cannella M. (a cura di) (199
Page 59 and 60:
(trasmissioni radiofoniche o televi
Page 61 and 62:
sembra che meno di 1.500 lemmi rapp
Page 63 and 64: lavoro, i trasporti, le comunicazio
Page 65 and 66: dell’Università di Firenze (LABL
Page 67 and 68: Possiamo sintetizzare i risultati d
Page 69 and 70: spagnolo (e il portoghese nell’ed
Page 71 and 72: I lavori con un numero inferiore di
Page 73 and 74: Considerata questa fervente attivit
Page 75 and 76: (Nemes 1933, Cser 1939, Nemes 1941)
Page 77 and 78: 1.000 bambini. Nella lista sono sta
Page 79 and 80: Il corpus è composto di giornali e
Page 81 and 82: ) Segue la lista alfabetica dei 3.4
Page 83 and 84: competenza sono descritti i requisi
Page 85 and 86: Uno dei più grandi lavori ungheres
Page 87 and 88: 150 milioni di parole, raccolte dal
Page 89 and 90: 4.1.1 La selezione dei lemmi Nella
Page 91 and 92: in più, ogni vocabolo del Battagli
Page 93 and 94: evidentemente circolari ed incompre
Page 95 and 96: ) Definizione in un “linguaggio s
Page 97 and 98: perché sono un importante punto di
Page 99 and 100: fesseria CO festeggiamento CO feten
Page 101 and 102: marcatura separata è riservata agl
Page 103 and 104: intracciare usi nuovi e diversi da
Page 105 and 106: tempo, permetterebbe all’utente d
Page 107 and 108: I primi testi analizzati dal punto
Page 109 and 110: Un esempio di applicazione sistemat
Page 111 and 112: legge prevede la semplificazione de
Page 113: complessa, un largo dizionario di 1
Page 117 and 118: nel settore del trattamento automat
Page 119 and 120: “un livello di capacità predomin
Page 121 and 122: Threshold con sole 500 unità lessi
Page 123 and 124: una tabella di nozioni, alle quali
Page 125 and 126: Gli elementi grammaticali fanno par
Page 127 and 128: I risultati delle ricerche condotte
Page 129 and 130: Gli esami CELI prevedono 5 livelli
Page 131 and 132: 5.2.3 Certificato di Competenza del
Page 133 and 134: 6 Il lessico del manuale Progetto i
Page 135 and 136: Come rilevato, base del corpus di r
Page 137 and 138: correzione degli errori di sopra ha
Page 139 and 140: dubbi ci siamo serviti del Dizionar
Page 141 and 142: Numero di parole 400 300 200 100 0
Page 143 and 144: particolare riguardo alla fascia d
Page 145 and 146: Dis tribuzione delle polire m atich
Page 147 and 148: Ci sono poi alcuni nomi, che sono e
Page 149 and 150: Abbiamo elencato solamente i lemmi
Page 151 and 152: cristiano, fondamentale, unito matr
Page 153 and 154: geografici, in particolare i nomi d
Page 155 and 156: carattere tecnico-specialistico. An
Page 157 and 158: La tabella sottostante raffigura la
Page 159 and 160: glossario, vi troviamo una quantit
Page 161 and 162: Tutto questo conferma non solo a li
Page 163 and 164: Sono *: le tenete sotto la pioggia
Page 165 and 166:
(1983) che oltre a contenere il les
Page 167 and 168:
Richiamiamo l’attenzione su quint
Page 169 and 170:
fondamentali mancanti vanno inserit
Page 171 and 172:
7 Conclusioni Le considerazioni sov
Page 173 and 174:
Bibliografia ALBANO LEONI F. (2003)
Page 175 and 176:
GIULIANI A., IACOBINI C., THORNTON
Page 177 and 178:
Quadro comune europeo di riferiment
Page 179 and 180:
DE MAURO T. (2003) Nuove parole ita
Page 181 and 182:
BALÁZS G., P. EŐRY V., KISS G., J
Page 183 and 184:
PRESCOTT D. A. (1929) Le Vocabulair
Page 185 and 186:
frequenza assoluta registrata nel c
Page 187 and 188:
all’ora: óránkénti AgPr 5L all
Page 189 and 190:
assunzione: mennybemenetel S 5L 339
Page 191 and 192:
avo!: ügyes, jól van I 1L 6505 br
Page 193 and 194:
che cosa: mi, mit PPr 1L 370 che: m
Page 195 and 196:
coniugazione: igeragozás S 1L # co
Page 197 and 198:
decaffeinato: koffeinmentes Ag 4L #
Page 199 and 200:
dove: hol Avv 0L dove: ahol C 2L 86
Page 201 and 202:
favore: szívesség S 2L 443 febbra
Page 203 and 204:
ghiaccio: jég S 4L 1992 già: már
Page 205 and 206:
incontrare: találkozik V 2QTF 544
Page 207 and 208:
lavarsi: megmosakszik V 4L 862 lava
Page 209 and 210:
meglio: jobban Avv 8L 187 mela: alm
Page 211 and 212:
nessuno: semmilyen Ag 1Q 369 nessun
Page 213 and 214:
panorama, il: panoráma, kilátás
Page 215 and 216:
piovere: esik V 5L 2901 pirateria:
Page 217 and 218:
pronome partitivo: részelő névm
Page 219 and 220:
esponsabile: felelős S 11QTF 1659
Page 221 and 222:
sbrigarsi: igyekszik, siet V 9L 650
Page 223 and 224:
soap opera: szappanopera SPr 10L 2
Page 225 and 226:
strappare: kitép V 10L 2823 stress
Page 227 and 228:
tipico: tipikus Ag 4L 1804 tipo: fa
Page 229 and 230:
venire: jön V 2L 66 ventina: kb. h
show all

2 I dizionari fondamentali e di frequenza della lingua italiana

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?