2 I dizionari fondamentali e di frequenza della lingua italiana
2 I dizionari fondamentali e di frequenza della lingua italiana
2 I dizionari fondamentali e di frequenza della lingua italiana
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
complessa, un largo <strong><strong>di</strong>zionari</strong>o <strong>di</strong> 17.000 entrate: un sottoinsieme del Dizionario<br />
Macchina Italiano (DMI), selezionato sulla base del LIF.<br />
Il parsing serve a numerosi scopi, una delle sue applicazioni più interessanti è<br />
l’annotazione automatica <strong>di</strong> gran<strong>di</strong> corpora. Il progetto più conosciuto <strong>di</strong> corpus<br />
sottoposto a parsing sintattico è il Penn Treebank dell’Univeristà <strong>di</strong> Pennsilvania,<br />
<strong>di</strong>venuto un punto <strong>di</strong> riferimento per la valutazione dell’efficienza degli strumenti <strong>di</strong><br />
parsing.<br />
Mentre il parsing sintattico <strong>di</strong> tipo tra<strong>di</strong>zionale opera con regole definite (rule-based<br />
parsing), esistono tuttavia forme <strong>di</strong> parsing probabilistico, in cui alle regole grammaticali<br />
sono aggiunte informazioni relative alla probabilità d’occorrenza misurata sulla base <strong>di</strong><br />
un corpus <strong>di</strong> riferimento annotato. Questo tipo <strong>di</strong> parsing usa algoritmi statistici per<br />
determinare quali etichette e gerarchie sono più probabili in dati contesti (cfr. Chiari<br />
2007: 104).<br />
Il tagging grammaticale. Il POS (part of speech) tagging, ossia l’etichettatura per<br />
categorie grammaticali, è, rispetto al parsing, un’operazione notevolmente più semplice.<br />
Il tagger non in<strong>di</strong>vidua le categorie sintattiche, ma semplicemente la parte del <strong>di</strong>scorso<br />
che una parola ricopre in una data frase (cfr. Chiari 2007: 106). Anche il tagger si serve<br />
<strong>di</strong> un <strong><strong>di</strong>zionari</strong>o che ha lo scopo <strong>di</strong> specificare quali categorie grammaticali possono<br />
corrispondere a ciascuna forma grafica. La <strong>di</strong>sambiguazione delle forme omografiche<br />
può essere <strong>di</strong> due tipi: esistono tagger basati su regole e tagger <strong>di</strong> tipo probabilistico. I<br />
primi accedono ad una grammatica in cui sono formalizzate le regole <strong>di</strong> formazione dei<br />
<strong>di</strong>versi possibili sintagmi <strong>di</strong> una <strong>lingua</strong>, mentre i secon<strong>di</strong> si basano su statistiche <strong>di</strong><br />
<strong>frequenza</strong> delle parti del <strong>di</strong>scorso e delle loro sequenze. 24 Per fornire i dati sulle<br />
frequenze, si usano dei corpora testuali annotati in modo manuale, chiamati training<br />
corpora, giacché servono ad “allenare” il tagger a produrre delle pre<strong>di</strong>zioni corrette.<br />
Allenare vuol <strong>di</strong>re: considerare una percentuale significativa <strong>di</strong> testi del tipo che si sta<br />
analizzando, cui si attribuisce manualmente la marca grammaticale al fine <strong>di</strong> insegnare al<br />
programma quale marca è più probabile in determinati contesti. Chiari (2007: 108) rileva<br />
che i tagger probabilistici usati per l’analisi <strong>di</strong> corpora inglesi, raggiungono un grado <strong>di</strong><br />
copertura corretta <strong>di</strong> etichette pari al 97-99% delle occorrenze. 25<br />
Tagger e parser probabilistici sono stati sviluppati per l’annotazione del corpus LIP. De<br />
Mauro et al. (1993: 64-76) hanno sviluppato un programma <strong>di</strong> analisi morfo-sintattica,<br />
basato su criteri statistici, in cui l’assegnazione delle categorie grammaticali si basa sulle<br />
frequenze con cui determinate sequenze <strong>di</strong> classi grammaticali sono state osservate in un<br />
particolare corpus campione.<br />
Uno dei software più potenti <strong>di</strong> analisi morfo-sintattica dei testi è INTEX, ideato in<br />
Francia nel 1993 da Max Silberztein, il cui modulo italiano è stato costruito nel 2004<br />
dall’Università <strong>di</strong> Salerno. INTEX è un analizzatore automatico <strong>di</strong> testi che consente <strong>di</strong><br />
effettuare operazioni <strong>di</strong> tagging e parsing, information retrieval, <strong>di</strong> costruire<br />
grammatiche, <strong><strong>di</strong>zionari</strong> elettronici, concordanze, ecc. 26<br />
24 Il processo <strong>di</strong> <strong>di</strong>sambiguazione morfologica, adottato nell’analisi del Webcorpus ungherese, è presentato<br />
in Kornai et al. (2006). L’analisi morfologica si basa sui dati statistici del para<strong>di</strong>gma <strong>di</strong> flessione nominale.<br />
In base alla probabilità d’occorrenza delle singole desinenze, il modello è in grado <strong>di</strong> pre<strong>di</strong>re quanto grande<br />
deve essere il corpus in cui una determinata forma occorre almeno una volta.<br />
25 Il British National Corpus, costituito da 100 milioni d’occorrenze è stato etichettato tramite il tagger<br />
probabilistico CLAWS (Constituent Likelihood Automatic Word-tagging System); per in<strong>di</strong>viduare il campo<br />
semantico delle occorrenze è stato costruito un sistema <strong>di</strong> tagging semantico chiamato ACASD (Automatic<br />
Content Analysis of Spoken Discourse).<br />
26 Il modulo ungherese è stato elaborato dall’Istituto <strong>di</strong> Linguistica dell’Accademia Ungherese delle<br />
Scienze, ed è <strong>di</strong>sponibile dal 2004 sul sito (http://corpus.nytud.hu/INTEX/). Un altro programma d’analisi<br />
morfologica, sviluppata su basi euristiche dalla società Morphologic appositamente per la <strong>lingua</strong><br />
113