´Indice general
´Indice general
´Indice general
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4<br />
CAPÍTULO 1. EXTRACCIÓN DE INFORMACIÓN<br />
tipo compa~nía<br />
giro computadoras<br />
localizada_en entidad 13<br />
Estados Unidos<br />
id entidad-13<br />
tipo lugar<br />
subtipo país<br />
1.1.4. Construcción de Plantilla de Escenario (Scenario Template<br />
construction)<br />
La plantilla de escenario es el resultado típico de un sistema de extracción<br />
de información. Esta tarea se encarga de relacionar las plantillas de<br />
elementos con los eventos de interés, por ejemplo, se puede relacionar a dos<br />
organizaciones A y B por medio del evento “creación de empresa conjunta<br />
(joint venture)”.<br />
creación de empresa conjunta<br />
id evento-2<br />
giro servidores<br />
compa~nías entidad-2 entidad-4<br />
1.2. Arquitectura de un Sistema de Extracción de<br />
Información<br />
Según Appelt and Israel (1999), los dos enfoques básicos para la construcción<br />
de sistemas de extracción de información son el enfoque de ingeniería<br />
del conocimiento y el de métodos empíricos (sistemas entrenados automáticamente):<br />
- En el enfoque de ingeniería del conocimiento es necesario el uso de<br />
expertos para analizar un corpus y construir gramáticas a partir de<br />
él. El corpus consiste en un conjunto de textos representativos de los<br />
que se desea extraer información. Las gramáticas son extraídas de ese<br />
corpus descubriendo en él patrones estructurales.<br />
- En los sistemas entrenados automáticamente se utilizan, en cambio,<br />
métodos estadísticos y algoritmos que puedan generar reglas a partir de<br />
un corpus anotado manualmente y “legible”para un sistema de PLN.