25.08.2013 Views

PDF (Online Text) - EURAC

PDF (Online Text) - EURAC

PDF (Online Text) - EURAC

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2.4 I corpora elettronici<br />

Nell’ambito del progetto TALES sul trattamento automatico della lingua ladina<br />

sono state create delle raccolte organiche di testi ladini, sia nel ladino standard che<br />

nei singoli idiomi. I corpora raccolti (fassano, gardenese, badiotto e ampezzano)<br />

contengono complessivamente circa 6.500.000 parole. I testi selezionati coprono<br />

un periodo che va dal XIX secolo fino ai giorni nostri, con preponderanza di testi<br />

appartenenti alla seconda metà del XX secolo. Per garantire un certo equilibrio fra i<br />

vari generi, sono stati inseriti sia testi letterari (prosa, poesia, teatro, memorialistica,<br />

testi sul folclore e le tradizioni, libri di preghiere), sia testi non letterari (testi giuridici<br />

e amministrativi, modulistica, testi di informazione giornalistica e pragmatici, testi<br />

di divulgazione scientifica e culturale, testi scolastici). Attualmente il corpus fassano<br />

è quello nella fase più avanzata di elaborazione. La sua strutturazione, che fornisce<br />

per ogni testo informazioni rilevanti (data, luogo di provenienza, tipologia testuale,<br />

autore), permette di affinare la ricerca secondo una serie di criteri predeterminati.<br />

I corpora sono consultabili tramite il concordancer, uno strumento elaborato ad<br />

hoc e rivolto anzitutto al linguista e allo studioso del ladino: esso permette l’analisi<br />

dei testi attraverso la ricerca di concordanze, collocazioni e frequenze secondo la<br />

modalità KWIC (Keyword In Context), ossia un sistema che permette di visualizzare la<br />

parola oggetto della ricerca con il suo contesto a corredo.<br />

Una sezione del concordancer è dedicata ai corpora amministrativi bi- e trilingui<br />

allineati: questa raccolta è di particolare utilità nel lavoro di realizzazione di glossari<br />

settoriali.<br />

Il lavoro preliminare per lo sviluppo dello strumento di analisi di corpora è<br />

consistito nella creazione di corpora testuali: i testi selezionati sono stati acquisiti<br />

elettronicamente oppure manualmente e sono stati elaborati rispettando precisi<br />

criteri di archiviazione. In seguito sono stati classificati in base alla loro appartenenza<br />

diatopica (individuazione della variante in cui sono scritti) e diacronica (dalle prime<br />

testimonianze scritte in ladino sino ai testi contemporanei) e alla tipologia testuale<br />

(testi letterari e non letterari con individuazione del genere specifico). Per ogni testo<br />

è stato creato un frontespizio elettronico che riassume tutte queste informazioni:<br />

periodo, autore, genere, nome del file, titolo originale, numero di parole, variante.<br />

Il frontespizio è stato linkato al testo corrispondente, cosicché le informazioni in esso<br />

contenute possano essere utilizzate per circoscrivere la ricerca.<br />

I corpora consultabili attraverso il concordancer si rivelano una risorsa di<br />

fondamentale importanza per diversi campi di applicazione: per lo studio del lessico,<br />

della sintassi e della morfologia, per l’elaborazione di strumenti normativi e didattici,<br />

289

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!