Descarga en formato PDF - Centro Ramón Piñeiro para a ...
Descarga en formato PDF - Centro Ramón Piñeiro para a ...
Descarga en formato PDF - Centro Ramón Piñeiro para a ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Extracción automática de colocacións e modismos<br />
Extracción automática de colocacións e modismos<br />
que resultan privilexiadas no cálculo de fD porque TACT-2.1. computa erroneam<strong>en</strong>te a<br />
coaparición dun termo consigo mesmo 5 . Isto lévanos a efectuar un terceiro experim<strong>en</strong>to:<br />
eliminar tanto os nomes propios coma as duplicacións, de xeito que só se proces<strong>en</strong><br />
bigramas realm<strong>en</strong>te susceptibles, a priori, de ser<strong>en</strong> colocacións ou modismos. Os 556<br />
bigramas recorr<strong>en</strong>tes de La familia de Pascual Duarte correspond<strong>en</strong> <strong>en</strong> realidade a 63<br />
nomes propios (ou combinación recorr<strong>en</strong>te dun nome propio con outra palabra), 88<br />
duplicacións (das cales unha tamén é un nome propio), 114 UF, máis 9 duplicacións que<br />
tamén son UF, e 282 combinacións aleatorias (conceptuais, contextuais ou casuais, do<br />
tipo domingos+misa, litro+vino). Se eliminamos nomes propios e duplicacións 6 , os<br />
bigramas recorr<strong>en</strong>tes (451) 7 reord<strong>en</strong>aríanse d<strong>en</strong>tro do listado do seguinte modo:<br />
BG UF<br />
30<br />
(d<strong>en</strong>s.%)<br />
0 a 10% 22 (49%)<br />
10 a 20% 21 (47%)<br />
20<br />
20 a 30% 13 (29%)<br />
30 a 40% 17 (38%)<br />
40 a 50% 12 (27%)<br />
10<br />
50 a 60% 13 (29%)<br />
60 a 70% 7 (16%)<br />
70 a 80% 6 (13%)<br />
0<br />
80 a 90% 4 (9%)<br />
10 20 30 40 50 60 70 80 90 100<br />
90 a 100% 1 (2%)<br />
A liña volve ser desc<strong>en</strong>d<strong>en</strong>te e a d<strong>en</strong>sidade fraseolóxica do primeiro tramo é do 49%.<br />
Isto supón unha melloría considerable con respecto ó método anterior pero, a pesar de<br />
todo, non se pode dicir que se conseguise se<strong>para</strong>r as combinacións fraseolóxicas das<br />
aleatorias (estas mesmo repres<strong>en</strong>tan un 51% no primeiro tramo) 8 .<br />
Outro factor susceptible de influ<strong>en</strong>cia-lo resultado estatístico é a lematización do corpus<br />
(Kilgarriff e Rundell 2002: 811): se as variantes gramaticais se unifican, sumaranse <strong>en</strong>tre<br />
si no cómputo, polo que non só se increm<strong>en</strong>ta o seu valor de fD, s<strong>en</strong>ón que as<br />
posibilidades de detección aum<strong>en</strong>tan ó agrupár<strong>en</strong>se <strong>en</strong>tre si unhas variantes que, por<br />
aparecer<strong>en</strong> unha única vez, quedaban excluídas nunha busca s<strong>en</strong> lematización. Por iso,<br />
realizamos un cuarto experim<strong>en</strong>to aplicando un lematizador (Mor<strong>en</strong>o e Guirao 2003) ó<br />
mesmo corpus, eliminando de principio nomes propios e duplicacións, obt<strong>en</strong>do un total<br />
de 1.054 bigramas recorr<strong>en</strong>tes, dos que 265 son UF, coa distribución seguinte:<br />
5<br />
Por exemplo, <strong>para</strong> o bigrama sinala 4 coaparicións cando na verdade só hai dúas: , , ou b<strong>en</strong> <strong>en</strong> a coincid<strong>en</strong>cia dunha palabra consigo mesma é computada erroneam<strong>en</strong>te como dúas<br />
coincid<strong>en</strong>cias , o que eleva artificialm<strong>en</strong>te o valor de fD.<br />
6 Sacrificamos ó facelo as 9 UF que, ademais, eran duplicacións (gota gota, costase costase).<br />
7<br />
Ó non incluírmos xa as duplicacións, queda corrixido o cómputo dos bigramas.<br />
8 A inevitable recorr<strong>en</strong>cia deste atranco xa foi sinalada por Church e Hanks <strong>en</strong> 1989. Font<strong>en</strong>elle (2001: 82)<br />
tamén afirma: “les données extraites par ces outils, aussi précieuses soi<strong>en</strong>t-elles, sont sémantiquem<strong>en</strong>t<br />
hétérogènes…”<br />
5<br />
195