´Indice general
´Indice general
´Indice general
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
viii<br />
INTRODUCCIÓN<br />
Desgraciadamente, a pesar de que GATE ha declarado públicamente que<br />
su arquitectura es Open Source, en particular el módulo Hepple no lo es. Y<br />
esto me creó una dificultad. Así pues, esta dificultad de no poder adaptar el<br />
Hepple para el español me impuso el subproblema de tener que buscar un<br />
módulo sustituto (o bien abandonar todo el proyecto de usar la arquitectura<br />
GATE para extracción de información en español). La pista para la solución<br />
de este subproblema la encontré en el mismo módulo Hepple, pues Hepple<br />
está basado en Brill (Hepple es un Brill-based POS Tagger).<br />
Como se verá en el capítulo 4, Hepple utiliza dos de las cuatro listas<br />
que genera el módulo de entrenamiento del Brill POS Tagger: utiliza sólo el<br />
lexicón y las reglas de contexto. Como yo sabía desde que empecé a estudiar<br />
el Hepple que éste está basado en Brill, ya tenía instalado en mi computadora<br />
el Brill POS Tagger y lo había probado, e incluso ya lo había entrenado para<br />
el español (Ver capítulo 5).<br />
La solución a esta dificultad de la imposibilidad de adaptar el Hepple<br />
para el español, fue desarrollar un módulo sustituto, también basado en<br />
Brill. Así que decidí programar el módulo sustituto de Hepple, utilizando la<br />
misma idea que observé en el módulo Hepple de GATE de encapsularlo en un<br />
wrapper para poder acoplarlo a GATE pero también para que me permitiera<br />
usarlo en forma independiente. Sin embargo, a diferencia de GATE que<br />
utilizó un wrapper para ocultar el código, yo usé un wrapper como interfaz<br />
que permite el acoplamiento con GATE. El resultado fue el VMP Tagger<br />
que se describe en el capítulo 5.<br />
En resumen, mi aportación en esta tesis consiste en 1) la utilización del<br />
Brill POS Tagger para entrenamiento para el español con lo cual se salva<br />
un obstáculo para el procesamiento de lenguaje natural de textos en español<br />
utilizando GATE; 2) el desarrollo del módulo VMP Tagger que sustituye al<br />
módulo de GATE (Hepple) que es de código cerrado y en consecuencia no<br />
adaptable para el español. Estas dos aportaciones permiten ya ejecutar la<br />
tarea de extracción de información para el español después de adaptar otros<br />
módulos lo cual es un proyecto que continuaré en mi tesis de maestría.<br />
Además del etiquetador morfosintáctico presentado aquí y que sustituye<br />
al módulo Hepple de GATE, se necesita adaptar al español otros módulos<br />
de GATE como el módulo de categorización de sustantivos, el analizador<br />
sintáctico de superficie y el de resolución de correferencia. La adaptación de<br />
estos módulos de GATE para el español es una tarea futura.<br />
A pesar del obstáculo al objetivo inicial que representó la imposibilidad<br />
de adaptar el etiquetador de Hepple y que me obligó a desarrollar todo un<br />
módulo acoplable a la arquitectura GATE, el objetivo inicial se logró en<br />
dos sentidos: 1) conocer de cerca el problema <strong>general</strong> del Procesamiento de