13.05.2013 Views

Método general de la lematización con una gramática mínima y un ...

Método general de la lematización con una gramática mínima y un ...

Método general de la lematización con una gramática mínima y un ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Excel, nuestro ámbito <strong>de</strong> trabajo <strong>de</strong> siempre, <strong>de</strong> modo que hay <strong><strong>un</strong>a</strong> buena <strong>con</strong>tinuación<br />

<strong>de</strong>l lugar <strong>de</strong> trabajo y <strong>de</strong> los textos tratados <strong>de</strong> cantidad re<strong>la</strong>tivamente reducida. 11<br />

3. EXPERIMENTO Y RESULTADO<br />

En cuanto a <strong>la</strong> <strong>la</strong>bor <strong>de</strong> i<strong>de</strong>ntificación, en teoría se supone que <strong>la</strong> <strong>lematización</strong> por<br />

categorías resulta más e<strong>con</strong>ómica que <strong>la</strong> <strong>de</strong> por formas. El proceso mismo <strong>de</strong> <strong>la</strong><br />

<strong>lematización</strong> serviría como <strong><strong>un</strong>a</strong> prueba <strong>de</strong> esta hipótesis. Ahora nos preg<strong>un</strong>tamos qué<br />

grado <strong>de</strong> diferencia existe entre los dos métodos. Para realizar el experimento <strong>de</strong><br />

comprobación utilizamos dos textos <strong>de</strong>l volumen 5 <strong>de</strong> BDLC: <strong>un</strong>o <strong>de</strong> texto l<strong>la</strong>no don<strong>de</strong><br />

aparecen voces diferentes, y otro <strong>de</strong> texto lematizado don<strong>de</strong> aparecen lemas <strong>un</strong>ificados<br />

<strong>de</strong> <strong>la</strong>s voces. Si nos fijamos en <strong>la</strong>s formas verbales, en el corpus aparecen 19.703 voces<br />

en total que se distribuyen <strong>de</strong> <strong>la</strong> manera siguiente:<br />

Voces Formas Lemas<br />

Cantidad total 19.703 2.625 822<br />

Valor máximo 2.277 2.277 3.512<br />

Tab<strong>la</strong>. 2. Voces y lemas<br />

En <strong>la</strong> Tab<strong>la</strong> 2 observamos que hay mucha más cantidad en voces <strong>un</strong>ificadas que en<br />

lemas. Si se trabaja manualmente <strong>con</strong> formas (2.277), el coste <strong>de</strong> <strong>la</strong> <strong>la</strong>bor en el<br />

tratamiento es tres veces mayor gran<strong>de</strong> que el <strong>de</strong> lemas (822). Es impensable trabajar <strong>con</strong><br />

<strong>la</strong>s voces <strong>con</strong>cretas que aparecen en el Texto (19.703).<br />

La cantidad máxima en <strong>la</strong>s voces correspon<strong>de</strong> a <strong>la</strong> forma ha, que posee el valor <strong>de</strong><br />

2.277, mientras que en <strong>la</strong> <strong>de</strong> los lemas es <strong>de</strong>l verbo haver, 3.512. Las formas y los lemas<br />

subsiguientes son los que se presentan en <strong>la</strong>s Figuras siguientes:<br />

no exige <strong><strong>un</strong>a</strong>s etiquetas previamente establecidas ni reg<strong>la</strong>s gramaticales incorporadas, sino que es<br />

adaptable a <strong>la</strong>s <strong>con</strong>diciones <strong>de</strong>l usuario. Para <strong>la</strong>s directrices diferentes <strong>de</strong>l programa, véase Mueller (2009).<br />

11 Cf. Tab<strong>la</strong> 1. Para <strong>la</strong> utilización <strong>de</strong> programas codificados en macro <strong>de</strong> Excel, véase Ueda (2005), don<strong>de</strong><br />

hemos explicado <strong>la</strong>s f<strong>un</strong>ciones <strong>de</strong> nuestro sistema SIAL (Sistema Integral para Análisis Lingüísticos).<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!