13.06.2013 Views

2 I dizionari fondamentali e di frequenza della lingua italiana

2 I dizionari fondamentali e di frequenza della lingua italiana

2 I dizionari fondamentali e di frequenza della lingua italiana

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong><strong>di</strong>zionari</strong>o <strong>di</strong> riferimento, inteso come repertorio in cui figurano anche le forme flesse<br />

delle parole. Il correttore spesso non <strong>di</strong>spone <strong>di</strong> un <strong><strong>di</strong>zionari</strong>o completo, ma solo <strong>di</strong> una<br />

lista <strong>di</strong> ra<strong>di</strong>ci e una serie <strong>di</strong> regole <strong>di</strong> scomposizione morfologica che permettono <strong>di</strong><br />

controllare la plausibilità <strong>della</strong> forma (Chiari 2007: 111).<br />

Il problema più complesso è quello dei suggerimenti per la correzione. Per proporre la<br />

parola giusta, il correttore usa, oltre allo spoglio del <strong><strong>di</strong>zionari</strong>o <strong>di</strong> riferimento, algoritmi<br />

che prevedono una serie <strong>di</strong> combinazioni <strong>di</strong> lettere alfabetiche legittime e frequenti. Le<br />

analisi statistiche <strong>di</strong> tipo probabilistico permettono <strong>di</strong> in<strong>di</strong>viduare i can<strong>di</strong>dati migliori a<br />

rappresentare sequenze possibili, probabili e frequenti e <strong>di</strong> analizzare delle tipologie<br />

d’errore più frequenti. Per la correzione degli errori grammaticali si ricorre al tagging che<br />

permette <strong>di</strong> <strong>di</strong>sambiguare le categorie grammaticali e in<strong>di</strong>viduare ad es. un mancato<br />

accordo. Rimangono tuttavia problemi irrisolti, come la mancanza <strong>di</strong> una parola dal<br />

<strong><strong>di</strong>zionari</strong>o <strong>di</strong> riferimento, o quando il termine errato effettivamente esiste, perciò non è<br />

riconosciuto.<br />

Un’interessante ricerca per aumentare il grado <strong>di</strong> copertura dei sistemi <strong>di</strong> controllo<br />

ortografico è stata condotta da Halácsy et al. (2004). La base dei sistemi primitivi <strong>di</strong><br />

controllo ortografico è la lista delle forme corrette, pre<strong>di</strong>sposte in or<strong>di</strong>ne <strong>di</strong> <strong>frequenza</strong>.<br />

Nell’ungherese, per ottenere un grado <strong>di</strong> copertura del 50%, bastano 3.000-6.000 forme<br />

(prendendo come base <strong>di</strong> riferimento il Webcorpus ungherese). Questo metodo però ha i<br />

suoi limiti, giacché la maggior parte delle forme ricorre una sola volta nei testi, si tratta<br />

quin<strong>di</strong> <strong>di</strong> hapax, la cui inclusione nelle liste pre<strong>di</strong>sposte richiederebbe un enorme lavoro,<br />

d’altra parte non migliorerebbe in misura corrispondente il grado <strong>di</strong> copertura del<br />

programma. Pertanto l’analisi morfologica è particolarmente importante nel caso <strong>di</strong> una<br />

<strong>lingua</strong> come l’ungherese, <strong>di</strong> cui è impossibile immagazzinare tutte le forme flesse<br />

esistenti. È opportuno che il sistema sia in grado <strong>di</strong> analizzare le flessioni, quin<strong>di</strong> nel<br />

programma <strong>di</strong> controllo ortografico va implementato anche un analizzatore morfologico.<br />

Prima si procede dunque all’immissione delle ra<strong>di</strong>ci più frequenti, mancanti nella lista,<br />

successivamente si analizzano le nuove ra<strong>di</strong>ci con l’aiuto <strong>di</strong> HunStem, un programma <strong>di</strong><br />

tagging morfologico. In accordo alla legge <strong>di</strong> Zipf è stato verificato che dopo aver<br />

introdotto le 100.000 ra<strong>di</strong>ci più frequenti, la percentuale <strong>di</strong> forme scoperte era del 5,6%,<br />

nel caso <strong>di</strong> 1 milione <strong>di</strong> ra<strong>di</strong>ci 3,2%, con 10 milioni 1,8% e con 100 milioni 1%. Si<br />

conclude quin<strong>di</strong>, che l’esattezza dei sistemi <strong>di</strong> controllo ortografico <strong>di</strong>pende in primo<br />

luogo dal numero <strong>di</strong> ra<strong>di</strong>ci incluse, ma con l’ampliamento dell’inventario, a causa <strong>della</strong><br />

legge <strong>di</strong> Zipf, l’esattezza del programma aumenta in misura decrescente.<br />

Il sistema T9. Un’altra applicazione basata su dati <strong>di</strong> <strong>frequenza</strong> è T9, sviluppata dalla<br />

società Tegic, per facilitare l’inserimento delle parole tramite la tastiera del cellulare.<br />

Utilizzando un vocabolario integrato, la tecnologia T9 è in grado <strong>di</strong> prevedere quale<br />

parola l’utente sta scrivendo e propone <strong>di</strong> completarla, risparmiando la pressione dei tasti<br />

corrispondenti alle lettere mancanti. In base ai testi da noi <strong>di</strong> solito inviati, è fatta una<br />

scelta previsionale circa la parola più probabile fra le <strong>di</strong>verse possibili con la<br />

combinazione <strong>di</strong>gitata. La nuova versione, XT9 è pensato per essere utilizzato con tutti<br />

gli apparecchi elettronici, palmari, computer e riconosce anche testi parlati e scritti a<br />

mano sullo schermo dei palmari. Sulla stessa idea si basa iTAP, sistema per l’immissione<br />

facilitata dei testi nei cellulari, sviluppato da Motorola.<br />

Traduzione automatica dei testi. I progressi del trattamento automatico del <strong>lingua</strong>ggio<br />

(in particolare il tagging e il parsing), negli anni Settanta hanno dato nuovo impulso ai<br />

progetti <strong>di</strong> traduzione automatica. Al semplice confronto lessicale sono affiancate<br />

componenti d’analisi morfologica, sintattica e <strong>di</strong>sambiguatori semantici. Il primo dei<br />

115

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!