13.11.2013 Views

´Indice general

´Indice general

´Indice general

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4<br />

CAPÍTULO 1. EXTRACCIÓN DE INFORMACIÓN<br />

tipo compa~nía<br />

giro computadoras<br />

localizada_en entidad 13<br />

Estados Unidos<br />

id entidad-13<br />

tipo lugar<br />

subtipo país<br />

1.1.4. Construcción de Plantilla de Escenario (Scenario Template<br />

construction)<br />

La plantilla de escenario es el resultado típico de un sistema de extracción<br />

de información. Esta tarea se encarga de relacionar las plantillas de<br />

elementos con los eventos de interés, por ejemplo, se puede relacionar a dos<br />

organizaciones A y B por medio del evento “creación de empresa conjunta<br />

(joint venture)”.<br />

creación de empresa conjunta<br />

id evento-2<br />

giro servidores<br />

compa~nías entidad-2 entidad-4<br />

1.2. Arquitectura de un Sistema de Extracción de<br />

Información<br />

Según Appelt and Israel (1999), los dos enfoques básicos para la construcción<br />

de sistemas de extracción de información son el enfoque de ingeniería<br />

del conocimiento y el de métodos empíricos (sistemas entrenados automáticamente):<br />

- En el enfoque de ingeniería del conocimiento es necesario el uso de<br />

expertos para analizar un corpus y construir gramáticas a partir de<br />

él. El corpus consiste en un conjunto de textos representativos de los<br />

que se desea extraer información. Las gramáticas son extraídas de ese<br />

corpus descubriendo en él patrones estructurales.<br />

- En los sistemas entrenados automáticamente se utilizan, en cambio,<br />

métodos estadísticos y algoritmos que puedan generar reglas a partir de<br />

un corpus anotado manualmente y “legible”para un sistema de PLN.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!