13.06.2013 Views

2 I dizionari fondamentali e di frequenza della lingua italiana

2 I dizionari fondamentali e di frequenza della lingua italiana

2 I dizionari fondamentali e di frequenza della lingua italiana

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

complessa, un largo <strong><strong>di</strong>zionari</strong>o <strong>di</strong> 17.000 entrate: un sottoinsieme del Dizionario<br />

Macchina Italiano (DMI), selezionato sulla base del LIF.<br />

Il parsing serve a numerosi scopi, una delle sue applicazioni più interessanti è<br />

l’annotazione automatica <strong>di</strong> gran<strong>di</strong> corpora. Il progetto più conosciuto <strong>di</strong> corpus<br />

sottoposto a parsing sintattico è il Penn Treebank dell’Univeristà <strong>di</strong> Pennsilvania,<br />

<strong>di</strong>venuto un punto <strong>di</strong> riferimento per la valutazione dell’efficienza degli strumenti <strong>di</strong><br />

parsing.<br />

Mentre il parsing sintattico <strong>di</strong> tipo tra<strong>di</strong>zionale opera con regole definite (rule-based<br />

parsing), esistono tuttavia forme <strong>di</strong> parsing probabilistico, in cui alle regole grammaticali<br />

sono aggiunte informazioni relative alla probabilità d’occorrenza misurata sulla base <strong>di</strong><br />

un corpus <strong>di</strong> riferimento annotato. Questo tipo <strong>di</strong> parsing usa algoritmi statistici per<br />

determinare quali etichette e gerarchie sono più probabili in dati contesti (cfr. Chiari<br />

2007: 104).<br />

Il tagging grammaticale. Il POS (part of speech) tagging, ossia l’etichettatura per<br />

categorie grammaticali, è, rispetto al parsing, un’operazione notevolmente più semplice.<br />

Il tagger non in<strong>di</strong>vidua le categorie sintattiche, ma semplicemente la parte del <strong>di</strong>scorso<br />

che una parola ricopre in una data frase (cfr. Chiari 2007: 106). Anche il tagger si serve<br />

<strong>di</strong> un <strong><strong>di</strong>zionari</strong>o che ha lo scopo <strong>di</strong> specificare quali categorie grammaticali possono<br />

corrispondere a ciascuna forma grafica. La <strong>di</strong>sambiguazione delle forme omografiche<br />

può essere <strong>di</strong> due tipi: esistono tagger basati su regole e tagger <strong>di</strong> tipo probabilistico. I<br />

primi accedono ad una grammatica in cui sono formalizzate le regole <strong>di</strong> formazione dei<br />

<strong>di</strong>versi possibili sintagmi <strong>di</strong> una <strong>lingua</strong>, mentre i secon<strong>di</strong> si basano su statistiche <strong>di</strong><br />

<strong>frequenza</strong> delle parti del <strong>di</strong>scorso e delle loro sequenze. 24 Per fornire i dati sulle<br />

frequenze, si usano dei corpora testuali annotati in modo manuale, chiamati training<br />

corpora, giacché servono ad “allenare” il tagger a produrre delle pre<strong>di</strong>zioni corrette.<br />

Allenare vuol <strong>di</strong>re: considerare una percentuale significativa <strong>di</strong> testi del tipo che si sta<br />

analizzando, cui si attribuisce manualmente la marca grammaticale al fine <strong>di</strong> insegnare al<br />

programma quale marca è più probabile in determinati contesti. Chiari (2007: 108) rileva<br />

che i tagger probabilistici usati per l’analisi <strong>di</strong> corpora inglesi, raggiungono un grado <strong>di</strong><br />

copertura corretta <strong>di</strong> etichette pari al 97-99% delle occorrenze. 25<br />

Tagger e parser probabilistici sono stati sviluppati per l’annotazione del corpus LIP. De<br />

Mauro et al. (1993: 64-76) hanno sviluppato un programma <strong>di</strong> analisi morfo-sintattica,<br />

basato su criteri statistici, in cui l’assegnazione delle categorie grammaticali si basa sulle<br />

frequenze con cui determinate sequenze <strong>di</strong> classi grammaticali sono state osservate in un<br />

particolare corpus campione.<br />

Uno dei software più potenti <strong>di</strong> analisi morfo-sintattica dei testi è INTEX, ideato in<br />

Francia nel 1993 da Max Silberztein, il cui modulo italiano è stato costruito nel 2004<br />

dall’Università <strong>di</strong> Salerno. INTEX è un analizzatore automatico <strong>di</strong> testi che consente <strong>di</strong><br />

effettuare operazioni <strong>di</strong> tagging e parsing, information retrieval, <strong>di</strong> costruire<br />

grammatiche, <strong><strong>di</strong>zionari</strong> elettronici, concordanze, ecc. 26<br />

24 Il processo <strong>di</strong> <strong>di</strong>sambiguazione morfologica, adottato nell’analisi del Webcorpus ungherese, è presentato<br />

in Kornai et al. (2006). L’analisi morfologica si basa sui dati statistici del para<strong>di</strong>gma <strong>di</strong> flessione nominale.<br />

In base alla probabilità d’occorrenza delle singole desinenze, il modello è in grado <strong>di</strong> pre<strong>di</strong>re quanto grande<br />

deve essere il corpus in cui una determinata forma occorre almeno una volta.<br />

25 Il British National Corpus, costituito da 100 milioni d’occorrenze è stato etichettato tramite il tagger<br />

probabilistico CLAWS (Constituent Likelihood Automatic Word-tagging System); per in<strong>di</strong>viduare il campo<br />

semantico delle occorrenze è stato costruito un sistema <strong>di</strong> tagging semantico chiamato ACASD (Automatic<br />

Content Analysis of Spoken Discourse).<br />

26 Il modulo ungherese è stato elaborato dall’Istituto <strong>di</strong> Linguistica dell’Accademia Ungherese delle<br />

Scienze, ed è <strong>di</strong>sponibile dal 2004 sul sito (http://corpus.nytud.hu/INTEX/). Un altro programma d’analisi<br />

morfologica, sviluppata su basi euristiche dalla società Morphologic appositamente per la <strong>lingua</strong><br />

113

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!