15.11.2013 Views

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

Análisis sintáctico conducido por un diccionario de patrones de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Creación <strong>de</strong> la gramática generativa experimental<br />

Por el otro lado, si se quiere mejorar la cobertura, se tiene que aumentar el<br />

número <strong>de</strong> reglas. Cuando <strong>un</strong>a gramática alcanza <strong>un</strong> tamaño consi<strong>de</strong>rable, cada vez es<br />

más difícil <strong>de</strong> controlar y exten<strong>de</strong>r, ya que las nuevas reglas entran en interacciones<br />

complejas con las anteriores. Por lo que oraciones que antes no presentaban<br />

problemas producen varios análisis equivocados, es <strong>de</strong>cir, aumenta la ambigüedad y<br />

<strong>de</strong>crece la precisión.<br />

La gramática que necesitamos en este caso, dado que no es el método más<br />

im<strong>por</strong>tante, no requiere condiciones óptimas en cuanto a cobertura y precisión.<br />

Nuestra gramática preten<strong>de</strong> consi<strong>de</strong>rar las construcciones más com<strong>un</strong>es, que nos<br />

permita i<strong>de</strong>ntificar el elemento rector en cada grupo y las relaciones sintácticas para el<br />

or<strong>de</strong>n <strong>de</strong> palabras usual.<br />

Para verificar la gramática, los elementos que más contribuyen son el marcaje<br />

<strong>de</strong> características morfológicas y la gramática misma, las cuales <strong>de</strong>tallamos a<br />

continuación.<br />

Marcas morfológicas<br />

El marcaje <strong>de</strong> partes <strong>de</strong>l habla o <strong>de</strong> categorías gramaticales (en inglés POS<br />

tagging) es útil para el análisis <strong>sintáctico</strong>. Conocer esta marca para <strong>un</strong>a palabra<br />

específica ayuda a <strong>de</strong>scartar la posibilidad <strong>de</strong> que esa misma palabra tenga otra<br />

categoría gramatical. La ambigüedad en categoría gramatical se refiere a que <strong>un</strong>a<br />

palabra pue<strong>de</strong> tener varias categorías sintácticas, <strong>por</strong> ejemplo ante pue<strong>de</strong> ser <strong>un</strong>a<br />

preposición o <strong>un</strong> sustantivo. La <strong>de</strong>sambiguación <strong>de</strong> este marcaje es muy útil para<br />

reducir la cantidad <strong>de</strong> ambigüedad que tiene que enfrentar el analizador <strong>sintáctico</strong>.<br />

El marcaje <strong>de</strong> partes <strong>de</strong>l habla es la subárea <strong>de</strong>l procesamiento lingüístico <strong>de</strong><br />

textos <strong>por</strong> computadora que consi<strong>de</strong>ra el estudio <strong>de</strong> métodos y algoritmos para reducir<br />

el <strong>por</strong>centaje <strong>de</strong> ambigüedad <strong>de</strong> categorías. Los métodos que se han empleado se<br />

pue<strong>de</strong>n clasificar en tres tipos: lingüísticos, estadísticos y aprendizaje mediante<br />

máquina. La mejor precisión en métodos lingüísticos correspon<strong>de</strong> a [Voutilainen, 94]<br />

con 99.3% a<strong>un</strong>que no todas las palabras están completamente <strong>de</strong>sambiguadas, su<br />

<strong>de</strong>fecto es la gran cantidad <strong>de</strong> tiempo que consume el <strong>de</strong>sarrollar <strong>un</strong> buen mo<strong>de</strong>lo <strong>de</strong>l<br />

lenguaje puesto que se requieren muchos años <strong>de</strong> recursos humanos. Los resultados<br />

producidos mediante métodos estadísticos han logrado entre 95% y 97% [Ludwig, 96]<br />

<strong>de</strong> palabras marcadas correctamente. Su <strong>de</strong>fecto es la dificultad <strong>de</strong> estimar con<br />

precisión el mo<strong>de</strong>lo <strong>de</strong>l lenguaje, puesto que es necesario estimar los parámetros <strong>de</strong>l<br />

mo<strong>de</strong>lo como en las siguientes formas: la probabilidad <strong>de</strong> que cierta palabra aparezca<br />

con cierta marca o la probabilidad <strong>de</strong> que <strong>un</strong>a marca sea seguida <strong>por</strong> otra marca<br />

específica.<br />

Existen métodos híbridos que combinan diferentes aproximaciones, como ya<br />

habíamos mencionado, <strong>por</strong> ejemplo el uso <strong>de</strong> recursos basados en estadísticas y en<br />

conocimiento. En el tipo <strong>de</strong> aprendizaje mediante máquina los autores emplean<br />

185

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!