13.05.2013 Views

Método general de la lematización con una gramática mínima y un ...

Método general de la lematización con una gramática mínima y un ...

Método general de la lematización con una gramática mínima y un ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

tener en cuenta su sintaxis. Precisamente para po<strong>de</strong>r ofrecer estos casos ambiguos, hemos<br />

introducido el procesamiento <strong>de</strong> categorización. El mérito <strong>de</strong> asignación <strong>de</strong> categoría<br />

gramatical es su capacidad <strong>de</strong> distinguir entre varios homógrafos: trabajo como<br />

sustantivo y trabajo como primera persona singu<strong>la</strong>r <strong>de</strong>l verbo trabajar en español; y<br />

sebre „saber‟ (sustantivo) y sebre „saber‟ (verbo) en catalán dialectal. La mayoría <strong>de</strong> <strong>la</strong>s<br />

veces se distinguen por <strong>la</strong> categoría, por ejemplo S(ustantivo) y V(erbo): trabajo_S,<br />

trabajo_V. A partir <strong>de</strong> esta asignación por “V”, po<strong>de</strong>mos proce<strong>de</strong>r a <strong>la</strong> <strong>lematización</strong><br />

verbal, excluyendo los casos <strong>de</strong> “S” (sustantivo).<br />

Para distinguir entre T (artículo) y X (pronombre), <strong>con</strong>tamos <strong>con</strong> <strong>la</strong> información<br />

sintáctica siguiente: 8<br />

1) De<strong>la</strong>nte <strong>de</strong> <strong>un</strong> sustantivo (S), _A_X (adjetivo / pronombre) <strong>de</strong>be <strong>con</strong>vertirse en<br />

_A (adjetivo), por ejemplo: tals_A_X judicis_S<br />

2) De<strong>la</strong>nte <strong>de</strong> <strong>un</strong> sustantivo (S), _T_X (artículo / pronombre) <strong>de</strong>be <strong>con</strong>vertirse en<br />

_T (artículo), por ejemplo: sebre‟l_T_X castellà_S<br />

3) De<strong>la</strong>nte <strong>de</strong> <strong>un</strong> verbo (V), TX (artículo / pronombre) <strong>de</strong>be <strong>con</strong>vertirse en _X<br />

(pronombre), por ejemplo: per que el_X vejen_V<br />

Para estas Reg<strong>la</strong>s gramaticales, se e<strong>la</strong>boran <strong>la</strong>s siguientes fórmu<strong>la</strong>s, que se basan en<br />

<strong>la</strong>s Expresiones Regu<strong>la</strong>res: 9<br />

1) (&)_A_X(@&_S)=>$1_A$2<br />

2) (&)_T_X(@&_S)=>$1_T$2<br />

3) (&)_T_X(@&_V)=>$1_X$2<br />

don<strong>de</strong> “&” representa <strong><strong>un</strong>a</strong> secuencia <strong>de</strong> letras utilizadas en <strong>la</strong>s pa<strong>la</strong>bras, “@” es <strong><strong>un</strong>a</strong><br />

secuencia <strong>de</strong> letras no utilizadas en <strong>la</strong>s pa<strong>la</strong>bras, $1 correspon<strong>de</strong> a <strong>la</strong> secuencia <strong>de</strong> letras<br />

entre <strong>la</strong> primera paréntesis (&) y $2, a <strong>la</strong> <strong>de</strong> <strong>la</strong> seg<strong>un</strong>da paréntesis (@&_S). El signo <strong>de</strong><br />

“=>” significa que <strong>la</strong> fórmu<strong>la</strong> izquierda se <strong>con</strong>vierte en <strong>la</strong> fórmu<strong>la</strong> <strong>de</strong>recha.<br />

Estas asignaciones se almacenan en <strong>la</strong> Lista <strong>de</strong> Reg<strong>la</strong>s, que se utiliza cada vez que<br />

se obtiene <strong>un</strong> texto ambiguo. El resultado es:<br />

22 (...) Bo_A es_V <strong>de</strong>_P veure_V que_C quedam_V amichs_S. Mostra_V a_P l_T‟ alemanya_A<br />

<strong>un</strong>es_T castanyetes_S noves_A ab_P <strong>un</strong>s_T grans_A flochs_N y_C borlins_S. —Això_M no_D<br />

es_V <strong>de</strong>_P Catal<strong>un</strong>ya_E, li_X dich_V. —No_D, diu_V ell_X, es_V d_P‟ Andalusia_E. [...]<br />

2.4. Lematización<br />

Texto. 3. Texto <strong>de</strong>sambiguado<br />

8 Sin recurrir a <strong>la</strong>s reg<strong>la</strong>s gramaticales, se podría solucionar el problema <strong>de</strong> ambigüedad por medidas<br />

estadísticas, que <strong>con</strong>sisten en buscar <strong>la</strong> mayor probabilidad posible <strong>de</strong> secuencias <strong>de</strong> tres elementos<br />

(trigramas) extraídos <strong>de</strong> textos anotados. Véase Vouti<strong>la</strong>inen (2003).<br />

9 Estas fórmu<strong>la</strong>s están basadas principalmente en <strong>la</strong> versión <strong>de</strong> Expresiones Regu<strong>la</strong>res <strong>de</strong> Microsoft<br />

VBScript, <strong>con</strong> alg<strong><strong>un</strong>a</strong>s modificaciones simplificadoras.<br />

7

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!