25.08.2013 Views

PDF (Online Text) - EURAC

PDF (Online Text) - EURAC

PDF (Online Text) - EURAC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2.4 Annotazione<br />

Come detto, il SDC si propone come un corpus annotato. Al XCESDoc faranno<br />

quindi riferimento, tramite Xpointer, le annotazioni ai vari livelli. Il più diffuso<br />

tipo di annotazione è quello per parti del discorso. Nel caso del sardo un corpus<br />

annotato per parti del discorso potrebbe rivelarsi particolarmente utile per la ricerca<br />

linguistica, soprattutto nella creazione di una grammatica descrittiva corpus-based.<br />

L’annotazione per parti del discorso sarà logicamente la prima in ordine di tempo, ma,<br />

dato il carattere aperto del corpus, potranno in seguito essere aggiunte annotazioni<br />

su altri livelli.<br />

2.5 Il tagset<br />

Nel caso del sardo è necessario creare un apposito tagset, che può essere in parte<br />

mutuato dai tagset per l’italiano e lo spagnolo creati all’interno del progetto MULTEXT<br />

secondo le raccomandazioni EAGLES. Le diverse varietà del sardo non differiscono<br />

particolarmente dal punto di vista morfosintattico: questo significa che è possibile<br />

definire un unico tagset per tutte le varietà. Gli esempi in questo articolo sono in<br />

campidanese, ma le etichette si potranno applicare praticamente senza variazioni<br />

anche alle altre varietà del sardo.<br />

L’annotazione grammaticale del nostro corpus, compatibile con la CesAna DTD,<br />

consisterà di tre livelli:<br />

• la forma base ();<br />

• una descrizione morfosintattica secondo le linee guida EAGLES ();<br />

• un corpus tag ().<br />

In accordo con quanto proposto da EAGLES, abbiamo una descrizione a due livelli:<br />

• la prima, a grana più fine, contiene la descrizione quanto più accurata<br />

possibile del token (descrizione lessicale );<br />

• la seconda invece, “a grana più grossa”, è una versione sottodeterminata<br />

della prima descrizione (corpus tag ).<br />

La distinzione a due livelli si mostra particolarmente utile quando si voglia utilizzare<br />

un sistema di etichettatura automatica. Alcune categorie sono infatti piuttosto difficili<br />

da disambiguare automaticamente ed è pertanto opportuno avere un sistema di<br />

etichettatura a grana più grossa. Nel caso del sardo, la creazione o l’implementazione<br />

di tagger automatici può essere un passo successivo, ma mi sembra utile, sin d’ora,<br />

definire un sistema di etichettatura adatto anche per un futuro utilizzo automatico.<br />

• Il tag si compone di una stringa di caratteri strutturata nel modo<br />

seguente: in posizione 0 il simbolo che codifica la parte del discorso;<br />

53

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!