30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

aAUTOMATOR: HERRAMIENTA FLEXIBLE PARA LA<br />

EXTRACCIÓN DE INFORMACIÓN EN SITIOS WEB<br />

BIOINFORMÁTICOS<br />

Daniel Glez-Peña, José R. Mén<strong>de</strong>z, Florentino F<strong>de</strong>z-Riverola<br />

<strong>Universidad</strong> <strong>de</strong> Vigo<br />

E.S. <strong>de</strong> Ingeniería Informática, Edificio Politécnico, As Lagoas s/n, 32004, Ourense, España<br />

{dgpena | moncho.men<strong>de</strong>z | riverola}@uvigo.es<br />

RESUMEN<br />

En este artículo se presenta aAUTOMATOR, una herramienta para el <strong>de</strong>sarrollo fácil y rápido <strong>de</strong> agentes software a<br />

medida <strong>de</strong>stinados a la extracción <strong>de</strong> información <strong>de</strong> la Web. Estas aplicaciones, <strong>de</strong>nominadas robots, recorren y analizan<br />

las páginas web extrayendo y combinando la información existente según el formato especificado por el usuario.<br />

aAUTOMATOR se compone <strong>de</strong> una herramienta visual para el diseño y ejecución <strong>de</strong> robots que evita la necesidad <strong>de</strong><br />

disponer <strong>de</strong> conocimientos avanzados <strong>de</strong> lenguajes <strong>de</strong> programación, y <strong>de</strong> una API que permite que los robots puedan ser<br />

integrados en nuevos <strong>de</strong>sarrollos in<strong>de</strong>pendientes <strong>de</strong> aAUTOMATOR como aplicaciones web o aplicaciones <strong>de</strong> escritorio.<br />

PALABRAS CLAVE<br />

recuperación <strong>de</strong> información, web crawling, web semántica, bioinformática<br />

1. INTRODUCCIÓN Y MOTIVACIÓN<br />

Conferência IADIS Ibero-Americana WWW/Internet 2007<br />

En la última década, la Web se ha convertido en el recurso <strong>de</strong> información más rico, libre, accesible,<br />

participativo, útil y, en <strong>de</strong>finitiva, <strong>de</strong> mayor relevancia <strong>de</strong> la Historia. A través <strong>de</strong> la WWW no sólo es posible<br />

acce<strong>de</strong>r a información <strong>de</strong> cualquier ámbito, sino que también es factible comprar, ven<strong>de</strong>r, publicitarse,<br />

comunicarse audiovisualmente, formar comunida<strong>de</strong>s, realizar operaciones bancarias, trámites con las<br />

administraciones y un largo etcétera. En ciertos ámbitos, sobre todo científicos, la Web se presenta como la<br />

fuente <strong>de</strong> información y <strong>de</strong> herramientas más importante, a<strong>de</strong>más <strong>de</strong> ser el principal canal <strong>de</strong> transferencia <strong>de</strong><br />

conocimiento.<br />

Concretamente, en el campo <strong>de</strong> la bioinformática y la biología computacional cabe <strong>de</strong>stacar la amplia<br />

disponibilidad <strong>de</strong> recursos en-línea en cuanto a: (i) publicaciones con información biológica y médica<br />

(bibliome) in<strong>de</strong>xadas por la base <strong>de</strong> datos PubMed (Pubmed, 2007) con más <strong>de</strong> 16 millones <strong>de</strong> abstracts y<br />

publicaciones científicas, y (ii) bases <strong>de</strong> datos genómicas, proteómicas y metabólicas <strong>de</strong> gran tamaño<br />

accesibles a través <strong>de</strong> interfaces y servicios web (Baxenavis and Ouellete, 2004). En este sentido, la Web es<br />

el medio que posibilita el acceso al nuevo conocimiento generado por diferentes grupos <strong>de</strong> investigación <strong>de</strong><br />

todo el mundo y que, sin embargo, continúa presentando importantes retos relacionados con el acceso y la<br />

extracción <strong>de</strong> información útil. Entre otros, cabe mencionar los siguientes inconvenientes:<br />

• Elevada cantidad <strong>de</strong> información. Las interfaces web <strong>de</strong> acceso a información genómica suelen<br />

generar como resultado datos <strong>de</strong> elevada dimensionalidad y nivel <strong>de</strong> <strong>de</strong>talle que, si bien en muchos<br />

casos es lo buscado, en otros únicamente resulta <strong>de</strong> interés una parte reducida <strong>de</strong>l resultado.<br />

• Múltiples formatos <strong>de</strong> presentación. El aspecto y estructura <strong>de</strong> los resultados es diferente en función<br />

<strong>de</strong> la fuente <strong>de</strong> información a la que se acce<strong>de</strong>.<br />

• Información distribuida en diferentes lugares. Suele ser muy habitual que la información buscada no<br />

se encuentre únicamente en un lugar, sino que sea necesario el acceso a múltiples fuentes <strong>de</strong><br />

información realizando búsquedas y copiando/pegando resultados que se dirigirán <strong>de</strong> forma manual<br />

hacia nuevas búsquedas en otros lugares. Este último reto es <strong>de</strong> especial relevancia y reinci<strong>de</strong>ncia en<br />

este campo.<br />

215

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!