13.11.2013 Views

´Indice general

´Indice general

´Indice general

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

viii<br />

INTRODUCCIÓN<br />

Desgraciadamente, a pesar de que GATE ha declarado públicamente que<br />

su arquitectura es Open Source, en particular el módulo Hepple no lo es. Y<br />

esto me creó una dificultad. Así pues, esta dificultad de no poder adaptar el<br />

Hepple para el español me impuso el subproblema de tener que buscar un<br />

módulo sustituto (o bien abandonar todo el proyecto de usar la arquitectura<br />

GATE para extracción de información en español). La pista para la solución<br />

de este subproblema la encontré en el mismo módulo Hepple, pues Hepple<br />

está basado en Brill (Hepple es un Brill-based POS Tagger).<br />

Como se verá en el capítulo 4, Hepple utiliza dos de las cuatro listas<br />

que genera el módulo de entrenamiento del Brill POS Tagger: utiliza sólo el<br />

lexicón y las reglas de contexto. Como yo sabía desde que empecé a estudiar<br />

el Hepple que éste está basado en Brill, ya tenía instalado en mi computadora<br />

el Brill POS Tagger y lo había probado, e incluso ya lo había entrenado para<br />

el español (Ver capítulo 5).<br />

La solución a esta dificultad de la imposibilidad de adaptar el Hepple<br />

para el español, fue desarrollar un módulo sustituto, también basado en<br />

Brill. Así que decidí programar el módulo sustituto de Hepple, utilizando la<br />

misma idea que observé en el módulo Hepple de GATE de encapsularlo en un<br />

wrapper para poder acoplarlo a GATE pero también para que me permitiera<br />

usarlo en forma independiente. Sin embargo, a diferencia de GATE que<br />

utilizó un wrapper para ocultar el código, yo usé un wrapper como interfaz<br />

que permite el acoplamiento con GATE. El resultado fue el VMP Tagger<br />

que se describe en el capítulo 5.<br />

En resumen, mi aportación en esta tesis consiste en 1) la utilización del<br />

Brill POS Tagger para entrenamiento para el español con lo cual se salva<br />

un obstáculo para el procesamiento de lenguaje natural de textos en español<br />

utilizando GATE; 2) el desarrollo del módulo VMP Tagger que sustituye al<br />

módulo de GATE (Hepple) que es de código cerrado y en consecuencia no<br />

adaptable para el español. Estas dos aportaciones permiten ya ejecutar la<br />

tarea de extracción de información para el español después de adaptar otros<br />

módulos lo cual es un proyecto que continuaré en mi tesis de maestría.<br />

Además del etiquetador morfosintáctico presentado aquí y que sustituye<br />

al módulo Hepple de GATE, se necesita adaptar al español otros módulos<br />

de GATE como el módulo de categorización de sustantivos, el analizador<br />

sintáctico de superficie y el de resolución de correferencia. La adaptación de<br />

estos módulos de GATE para el español es una tarea futura.<br />

A pesar del obstáculo al objetivo inicial que representó la imposibilidad<br />

de adaptar el etiquetador de Hepple y que me obligó a desarrollar todo un<br />

módulo acoplable a la arquitectura GATE, el objetivo inicial se logró en<br />

dos sentidos: 1) conocer de cerca el problema <strong>general</strong> del Procesamiento de

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!