08.11.2014 Views

Descarga en formato PDF - Centro Ramón Piñeiro para a ...

Descarga en formato PDF - Centro Ramón Piñeiro para a ...

Descarga en formato PDF - Centro Ramón Piñeiro para a ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Extracción automática de colocacións e modismos<br />

Extracción automática de colocacións e modismos<br />

que resultan privilexiadas no cálculo de fD porque TACT-2.1. computa erroneam<strong>en</strong>te a<br />

coaparición dun termo consigo mesmo 5 . Isto lévanos a efectuar un terceiro experim<strong>en</strong>to:<br />

eliminar tanto os nomes propios coma as duplicacións, de xeito que só se proces<strong>en</strong><br />

bigramas realm<strong>en</strong>te susceptibles, a priori, de ser<strong>en</strong> colocacións ou modismos. Os 556<br />

bigramas recorr<strong>en</strong>tes de La familia de Pascual Duarte correspond<strong>en</strong> <strong>en</strong> realidade a 63<br />

nomes propios (ou combinación recorr<strong>en</strong>te dun nome propio con outra palabra), 88<br />

duplicacións (das cales unha tamén é un nome propio), 114 UF, máis 9 duplicacións que<br />

tamén son UF, e 282 combinacións aleatorias (conceptuais, contextuais ou casuais, do<br />

tipo domingos+misa, litro+vino). Se eliminamos nomes propios e duplicacións 6 , os<br />

bigramas recorr<strong>en</strong>tes (451) 7 reord<strong>en</strong>aríanse d<strong>en</strong>tro do listado do seguinte modo:<br />

BG UF<br />

30<br />

(d<strong>en</strong>s.%)<br />

0 a 10% 22 (49%)<br />

10 a 20% 21 (47%)<br />

20<br />

20 a 30% 13 (29%)<br />

30 a 40% 17 (38%)<br />

40 a 50% 12 (27%)<br />

10<br />

50 a 60% 13 (29%)<br />

60 a 70% 7 (16%)<br />

70 a 80% 6 (13%)<br />

0<br />

80 a 90% 4 (9%)<br />

10 20 30 40 50 60 70 80 90 100<br />

90 a 100% 1 (2%)<br />

A liña volve ser desc<strong>en</strong>d<strong>en</strong>te e a d<strong>en</strong>sidade fraseolóxica do primeiro tramo é do 49%.<br />

Isto supón unha melloría considerable con respecto ó método anterior pero, a pesar de<br />

todo, non se pode dicir que se conseguise se<strong>para</strong>r as combinacións fraseolóxicas das<br />

aleatorias (estas mesmo repres<strong>en</strong>tan un 51% no primeiro tramo) 8 .<br />

Outro factor susceptible de influ<strong>en</strong>cia-lo resultado estatístico é a lematización do corpus<br />

(Kilgarriff e Rundell 2002: 811): se as variantes gramaticais se unifican, sumaranse <strong>en</strong>tre<br />

si no cómputo, polo que non só se increm<strong>en</strong>ta o seu valor de fD, s<strong>en</strong>ón que as<br />

posibilidades de detección aum<strong>en</strong>tan ó agrupár<strong>en</strong>se <strong>en</strong>tre si unhas variantes que, por<br />

aparecer<strong>en</strong> unha única vez, quedaban excluídas nunha busca s<strong>en</strong> lematización. Por iso,<br />

realizamos un cuarto experim<strong>en</strong>to aplicando un lematizador (Mor<strong>en</strong>o e Guirao 2003) ó<br />

mesmo corpus, eliminando de principio nomes propios e duplicacións, obt<strong>en</strong>do un total<br />

de 1.054 bigramas recorr<strong>en</strong>tes, dos que 265 son UF, coa distribución seguinte:<br />

5<br />

Por exemplo, <strong>para</strong> o bigrama sinala 4 coaparicións cando na verdade só hai dúas: , , ou b<strong>en</strong> <strong>en</strong> a coincid<strong>en</strong>cia dunha palabra consigo mesma é computada erroneam<strong>en</strong>te como dúas<br />

coincid<strong>en</strong>cias , o que eleva artificialm<strong>en</strong>te o valor de fD.<br />

6 Sacrificamos ó facelo as 9 UF que, ademais, eran duplicacións (gota gota, costase costase).<br />

7<br />

Ó non incluírmos xa as duplicacións, queda corrixido o cómputo dos bigramas.<br />

8 A inevitable recorr<strong>en</strong>cia deste atranco xa foi sinalada por Church e Hanks <strong>en</strong> 1989. Font<strong>en</strong>elle (2001: 82)<br />

tamén afirma: “les données extraites par ces outils, aussi précieuses soi<strong>en</strong>t-elles, sont sémantiquem<strong>en</strong>t<br />

hétérogènes…”<br />

5<br />

195

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!