2 I dizionari fondamentali e di frequenza della lingua italiana
2 I dizionari fondamentali e di frequenza della lingua italiana
2 I dizionari fondamentali e di frequenza della lingua italiana
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong><strong>di</strong>zionari</strong>o <strong>di</strong> riferimento, inteso come repertorio in cui figurano anche le forme flesse<br />
delle parole. Il correttore spesso non <strong>di</strong>spone <strong>di</strong> un <strong><strong>di</strong>zionari</strong>o completo, ma solo <strong>di</strong> una<br />
lista <strong>di</strong> ra<strong>di</strong>ci e una serie <strong>di</strong> regole <strong>di</strong> scomposizione morfologica che permettono <strong>di</strong><br />
controllare la plausibilità <strong>della</strong> forma (Chiari 2007: 111).<br />
Il problema più complesso è quello dei suggerimenti per la correzione. Per proporre la<br />
parola giusta, il correttore usa, oltre allo spoglio del <strong><strong>di</strong>zionari</strong>o <strong>di</strong> riferimento, algoritmi<br />
che prevedono una serie <strong>di</strong> combinazioni <strong>di</strong> lettere alfabetiche legittime e frequenti. Le<br />
analisi statistiche <strong>di</strong> tipo probabilistico permettono <strong>di</strong> in<strong>di</strong>viduare i can<strong>di</strong>dati migliori a<br />
rappresentare sequenze possibili, probabili e frequenti e <strong>di</strong> analizzare delle tipologie<br />
d’errore più frequenti. Per la correzione degli errori grammaticali si ricorre al tagging che<br />
permette <strong>di</strong> <strong>di</strong>sambiguare le categorie grammaticali e in<strong>di</strong>viduare ad es. un mancato<br />
accordo. Rimangono tuttavia problemi irrisolti, come la mancanza <strong>di</strong> una parola dal<br />
<strong><strong>di</strong>zionari</strong>o <strong>di</strong> riferimento, o quando il termine errato effettivamente esiste, perciò non è<br />
riconosciuto.<br />
Un’interessante ricerca per aumentare il grado <strong>di</strong> copertura dei sistemi <strong>di</strong> controllo<br />
ortografico è stata condotta da Halácsy et al. (2004). La base dei sistemi primitivi <strong>di</strong><br />
controllo ortografico è la lista delle forme corrette, pre<strong>di</strong>sposte in or<strong>di</strong>ne <strong>di</strong> <strong>frequenza</strong>.<br />
Nell’ungherese, per ottenere un grado <strong>di</strong> copertura del 50%, bastano 3.000-6.000 forme<br />
(prendendo come base <strong>di</strong> riferimento il Webcorpus ungherese). Questo metodo però ha i<br />
suoi limiti, giacché la maggior parte delle forme ricorre una sola volta nei testi, si tratta<br />
quin<strong>di</strong> <strong>di</strong> hapax, la cui inclusione nelle liste pre<strong>di</strong>sposte richiederebbe un enorme lavoro,<br />
d’altra parte non migliorerebbe in misura corrispondente il grado <strong>di</strong> copertura del<br />
programma. Pertanto l’analisi morfologica è particolarmente importante nel caso <strong>di</strong> una<br />
<strong>lingua</strong> come l’ungherese, <strong>di</strong> cui è impossibile immagazzinare tutte le forme flesse<br />
esistenti. È opportuno che il sistema sia in grado <strong>di</strong> analizzare le flessioni, quin<strong>di</strong> nel<br />
programma <strong>di</strong> controllo ortografico va implementato anche un analizzatore morfologico.<br />
Prima si procede dunque all’immissione delle ra<strong>di</strong>ci più frequenti, mancanti nella lista,<br />
successivamente si analizzano le nuove ra<strong>di</strong>ci con l’aiuto <strong>di</strong> HunStem, un programma <strong>di</strong><br />
tagging morfologico. In accordo alla legge <strong>di</strong> Zipf è stato verificato che dopo aver<br />
introdotto le 100.000 ra<strong>di</strong>ci più frequenti, la percentuale <strong>di</strong> forme scoperte era del 5,6%,<br />
nel caso <strong>di</strong> 1 milione <strong>di</strong> ra<strong>di</strong>ci 3,2%, con 10 milioni 1,8% e con 100 milioni 1%. Si<br />
conclude quin<strong>di</strong>, che l’esattezza dei sistemi <strong>di</strong> controllo ortografico <strong>di</strong>pende in primo<br />
luogo dal numero <strong>di</strong> ra<strong>di</strong>ci incluse, ma con l’ampliamento dell’inventario, a causa <strong>della</strong><br />
legge <strong>di</strong> Zipf, l’esattezza del programma aumenta in misura decrescente.<br />
Il sistema T9. Un’altra applicazione basata su dati <strong>di</strong> <strong>frequenza</strong> è T9, sviluppata dalla<br />
società Tegic, per facilitare l’inserimento delle parole tramite la tastiera del cellulare.<br />
Utilizzando un vocabolario integrato, la tecnologia T9 è in grado <strong>di</strong> prevedere quale<br />
parola l’utente sta scrivendo e propone <strong>di</strong> completarla, risparmiando la pressione dei tasti<br />
corrispondenti alle lettere mancanti. In base ai testi da noi <strong>di</strong> solito inviati, è fatta una<br />
scelta previsionale circa la parola più probabile fra le <strong>di</strong>verse possibili con la<br />
combinazione <strong>di</strong>gitata. La nuova versione, XT9 è pensato per essere utilizzato con tutti<br />
gli apparecchi elettronici, palmari, computer e riconosce anche testi parlati e scritti a<br />
mano sullo schermo dei palmari. Sulla stessa idea si basa iTAP, sistema per l’immissione<br />
facilitata dei testi nei cellulari, sviluppato da Motorola.<br />
Traduzione automatica dei testi. I progressi del trattamento automatico del <strong>lingua</strong>ggio<br />
(in particolare il tagging e il parsing), negli anni Settanta hanno dato nuovo impulso ai<br />
progetti <strong>di</strong> traduzione automatica. Al semplice confronto lessicale sono affiancate<br />
componenti d’analisi morfologica, sintattica e <strong>di</strong>sambiguatori semantici. Il primo dei<br />
115