´Indice general
´Indice general
´Indice general
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
32<br />
CAPÍTULO 3. GATE<br />
documento.<br />
Imaginemos que estamos ante la interfaz gráfica de GATE (ver figura<br />
3.3). Una vez que todos los recursos han sido cargados, una aplicación puede<br />
ser creada y corrida. Para ello basta ejecutar un click derecho sobre “Applications”<br />
y seleccionar “New”, para después elegir entre “corpus pipeline”<br />
o “pipeline” o una de las condicionadas. Una aplicación pipeline solamente<br />
puede correrse sobre un solo documento, mientras que una del tipo corpus<br />
pipeline puede ser corrida sobre todo un corpus.<br />
Para configurar el pipeline 3 , se hace doble click sobre la nueva aplicación<br />
que se creo usando Applications -> New -> pipeline. De inmediato<br />
aparecerán sobre el panel principal dos columnas. En la columna izquierda<br />
se encuentran enlistados los recursos de procesamiento que hayan sido<br />
cargados (ver figura 3.4). El usuario deberá pasar a la columna derecha los<br />
componentes que necesite para poder armar su aplicación (ver figura 3.4).<br />
Después, los módulos deben de ponerse en el orden (de arriba hacia abajo)<br />
en el que se quiere que se corran. Y, por último, a cada componente del pipeline<br />
hay que asignarle el recurso de lenguaje (texto previamente cargado<br />
en GATE) que se quiere analizar y hacer click en “Run”.<br />
3.4. Anotaciones<br />
Cuando se corren recursos de procesamiento (como tokenizadores, parseadores,<br />
etc.) que operan sobre textos, aquellos producen información acerca<br />
de éstos. Por ejemplo, cuando se corre un tokenizador, a cada palabra<br />
se le asigna un tipo (token-type): word, number, punctuation, etc; cuando<br />
se corre un etiquetador morfosintáctico, a cada palabra se le asigna una<br />
categoría gramatical (proper noun, verb, etc). Esta información que se produce<br />
a partir del texto se representa dentro de GATE como un conjunto de<br />
anotaciones.<br />
Una anotación en GATE consiste de:<br />
un ID, es decir, una identificación única en el documento al que la<br />
anotación se refiere<br />
un type, el cual denota el tipo de anotación. Los diferentes recursos de<br />
procesamiento usualmente generan anotaciones de distintos tipos.<br />
3 Pipeline es un concepto informático que se refiere a la ejecución en sucesión de varios<br />
componentes de software donde el output de uno es el input del siguiente. Es un<br />
acoplamiento encadenado de las componentes que forman la aplicación.