geração (semi)automática de metadados - Universidad Autónoma ...

More documents

Recommendations

Info

aAUTOMATOR: HERRAMIENTA FLEXIBLE PARA LA EXTRACCIÓN DE INFORMACIÓN EN SITIOS WEB BIOINFORMÁTICOS Daniel Glez-Peña, José R. Méndez, Florentino Fdez-Riverola Universidad de Vigo E.S. de Ingeniería Informática, Edificio Politécnico, As Lagoas s/n, 32004, Ourense, España {dgpena | moncho.mendez | riverola}@uvigo.es RESUMEN En este artículo se presenta aAUTOMATOR, una herramienta para el desarrollo fácil y rápido de agentes software a medida destinados a la extracción de información de la Web. Estas aplicaciones, denominadas robots, recorren y analizan las páginas web extrayendo y combinando la información existente según el formato especificado por el usuario. aAUTOMATOR se compone de una herramienta visual para el diseño y ejecución de robots que evita la necesidad de disponer de conocimientos avanzados de lenguajes de programación, y de una API que permite que los robots puedan ser integrados en nuevos desarrollos independientes de aAUTOMATOR como aplicaciones web o aplicaciones de escritorio. PALABRAS CLAVE recuperación de información, web crawling, web semántica, bioinformática 1. INTRODUCCIÓN Y MOTIVACIÓN Conferência IADIS Ibero-Americana WWW/Internet 2007 En la última década, la Web se ha convertido en el recurso de información más rico, libre, accesible, participativo, útil y, en definitiva, de mayor relevancia de la Historia. A través de la WWW no sólo es posible acceder a información de cualquier ámbito, sino que también es factible comprar, vender, publicitarse, comunicarse audiovisualmente, formar comunidades, realizar operaciones bancarias, trámites con las administraciones y un largo etcétera. En ciertos ámbitos, sobre todo científicos, la Web se presenta como la fuente de información y de herramientas más importante, además de ser el principal canal de transferencia de conocimiento. Concretamente, en el campo de la bioinformática y la biología computacional cabe destacar la amplia disponibilidad de recursos en-línea en cuanto a: (i) publicaciones con información biológica y médica (bibliome) indexadas por la base de datos PubMed (Pubmed, 2007) con más de 16 millones de abstracts y publicaciones científicas, y (ii) bases de datos genómicas, proteómicas y metabólicas de gran tamaño accesibles a través de interfaces y servicios web (Baxenavis and Ouellete, 2004). En este sentido, la Web es el medio que posibilita el acceso al nuevo conocimiento generado por diferentes grupos de investigación de todo el mundo y que, sin embargo, continúa presentando importantes retos relacionados con el acceso y la extracción de información útil. Entre otros, cabe mencionar los siguientes inconvenientes: • Elevada cantidad de información. Las interfaces web de acceso a información genómica suelen generar como resultado datos de elevada dimensionalidad y nivel de detalle que, si bien en muchos casos es lo buscado, en otros únicamente resulta de interés una parte reducida del resultado. • Múltiples formatos de presentación. El aspecto y estructura de los resultados es diferente en función de la fuente de información a la que se accede. • Información distribuida en diferentes lugares. Suele ser muy habitual que la información buscada no se encuentre únicamente en un lugar, sino que sea necesario el acceso a múltiples fuentes de información realizando búsquedas y copiando/pegando resultados que se dirigirán de forma manual hacia nuevas búsquedas en otros lugares. Este último reto es de especial relevancia y reincidencia en este campo. 215
ISBN: 978–972–8924–45-4 © 2007 IADIS En este contexto, suele ser frecuente que la solución adoptada implique el desarrollo de aplicaciones software que acceden a las páginas web seleccionando, formateando y combinando la información extraída con el fin de generar una versión personalizada que cumpla los requisitos. Sin embargo, la Web no ha sido diseñada para ser interpretada por agentes software, sino por personas. En todo caso, la WWW continúa mejorando no sólo cuantitativamente, sino de un modo cualitativo. En los últimos años han surgido tecnologías para formatear, estructurar e indexar dicha información (RDF, OWL, SPARQL, Servicios Web SOAP/WSDL, etc.), siendo además accesible e interpretable por agentes software. Todo este tipo de tecnologías da soporte a lo que se ha dado en llamar Web Semántica (Davies, 2006). Esta nueva generación de tecnologías permite la creación de programas que durante su ejecución pueden acceder a servicios y/o extraer información de múltiples sitios Web. No obstante, el uso de estas herramientas dista todavía de ser algo generalizado (Baumgartner, 2001) debido sobre todo a la antigüedad de las webs o a que no ha sido considerado su acceso por parte programas software. Este inconveniente se presenta también en muchos sitios de acceso a bases de datos bioinformáticas. En estos casos, la única alternativa para la creación de este tipo de agentes software implica un esfuerzo a mayores durante la fase de extracción de información, que se basa en el análisis del código HTML en busca de patrones de cadenas de texto. A mayores, se hacen necesarios conocimientos de programación para la construcción de este tipo de “robots”, tanto si se utilizan tecnologías de la web semántica, como si se analiza texto HTML. El presente artículo presenta aAUTOMATOR, una herramienta altamente flexible que permite la creación visual de agentes software (en adelante robots) para la extracción de información en sitios web. Mediante aAUTOMATOR un usuario sin conocimientos de programación puede crear sus propios robots con un bajo esfuerzo, y éstos accederán a webs, extraerán texto, lo dirigirán a otros portales, descargarán imágenes, ficheros, combinarán resultados e incluso podrán generar como salida una página HTML personalizada. El artículo se ha estructurado como sigue. La sección 2 detalla la arquitectura de aAUTOMATOR, describiendo la estructura, componentes internos y almacenamiento de un robot. A continuación la sección 3 presenta la herramienta visual para el diseño de robots. Posteriormente, la sección 4 propone un ejemplo de utilización real implementando un caso práctico. Finalmente la sección 5 expone las conclusiones y el trabajo futuro a realizar. 2. ARQUITECTURA DE aAUTOMATOR aAUTOMATOR ha sido desarrollado en Java utilizando la versión 1.5 del JDK y haciendo uso de la plataforma de programación AIBench (AIBench, 2007). Su arquitectura se muestra en la Figura 1. 216 Figura 1. Arquitectura de aAUTOMATOR. Tal y como muestra la Figura 1, aAUTOMATOR se compone de dos bloques principales: • Herramienta de edición y ejecución de robots. Aplicación que permite el diseño y la ejecución de robots en un entorno visual y amigable. El objetivo de esta herramienta es la creación de robots sin conocimientos de programación, una de las características clave del trabajo llevado a cabo.
Page 2:
. CONFERÊNCIA IADIS IBERO-AMERICAN
Page 5 and 6:
Copyright 2007 IADIS Press Todos os
Page 7 and 8:
E-GOV BRASILEIRO: UMA ANÁLISE DOS
Page 9 and 10:
APLICACIÓN DE UN ÍNDICE DE EVALUA
Page 11 and 12:
POSTERS UNA ONTOLOGÍA DE VINOS ESP
Page 13 and 14:
Por fim desejamos que todos os part
Page 15 and 16:
Carlos Juiz, Universidad de las Isl
Page 17 and 18:
María Dolores Ayuso, Universidad d
Page 19 and 20:
xviii
Page 21 and 22:
Os Ambientes Inteligentes podem ser
Page 24 and 25:
EM BUSCA DE UM ENSINO COMPLEMENTAR
Page 26 and 27:
Figura 1. Simulador de robô O requ
Page 28 and 29:
Conferência IADIS Ibero-Americana
Page 30 and 31:
AGRADECIMENTOS Intel Educação; Mi
Page 32 and 33:
Ao longo dos últimos anos, a ESEB
Page 34 and 35:
Contrariamente às etapas anteriore
Page 36 and 37:
3.3 Resource Description Framework
Page 38 and 39:
Page 40 and 41:
Page 42 and 43:
a) Acompanhamento de acesso e freq
Page 44 and 45:
Nesta perspectiva, houve um redimen
Page 46 and 47:
troca representa apenas 1 (um) dos
Page 48 and 49:
UMA FERRAMENTA PARA ACOMPANHAMENTO
Page 50 and 51:
permite analisar a capacidade cogni
Page 52 and 53:
• Objeto de aprendizagem (OA) = u
Page 54 and 55:
5. VALIDAÇÃO DA FERRAMENTA Para v
Page 56 and 57:
RECOMENDACIÓN DE PERFILES ACADÉMI
Page 58 and 59:
Page 60 and 61:
Número de Vecinos Factor de relev
Page 62 and 63:
Figura 3. Recomendaciones para asig
Page 64 and 65:
UMA FERRAMENTA DE MINERAÇÃO DE TE
Page 66 and 67:
Os trabalhos encontrados no levanta
Page 68 and 69:
3.2 Módulo de Inteligência Figura
Page 70 and 71:
seleção executa os seguintes pass
Page 72 and 73:
HIPERMÍDIA ADAPTATIVA COMO ESTRAT
Page 74 and 75:
3. SISTEMAS DE HIPERMÍDIA ADAPTATI
Page 76 and 77:
Page 78 and 79:
âncoras ordenadas poderão estar e
Page 80 and 81:
MODELO PARA LA GESTIÓN DEL E-LEARN
Page 82 and 83:
2. EL MODELO 2.1 El Contexto Confer
Page 84 and 85:
Duart y Sangrà (2000), debe permit
Page 86 and 87:
Eje 5: eProcesos Medida 5.1: eMárk
Page 88 and 89:
A ATENÇÃO AO ECONÓMICO, AO SOCIA
Page 90 and 91:
A região de Lisboa aparece-nos com
Page 92 and 93:
do ambiente. O valor dos muito fort
Page 94 and 95:
É esmagador, 195, o número de sit
Page 96 and 97:
E-GOV BRASILEIRO: UMA ANÁLISE DOS
Page 98 and 99:
2.2 Coleta e Integração dos Dados
Page 100 and 101:
município brasileiro, sendo que: (
Page 102 and 103:
significa que um cidadão com acess
Page 104 and 105:
MSB: UNA APLICACIÓN WWW PARA GENER
Page 106 and 107:
minar qué eventos resultan relevan
Page 108 and 109:
daños > caudal > volumen > lluvia
Page 110 and 111:
MSB presenta también similitudes c
Page 112 and 113:
DISEÑO DE UNA HERRAMIENTA PARA EL
Page 114 and 115:
Page 116 and 117:
Figura 2. Creación de Caso de Uso
Page 118 and 119:
conjuntamente con la información r
Page 120 and 121:
UM MODELO ONTOLÓGICO PARA O CONTEX
Page 122 and 123:
sejam capazes de reconhecer quais o
Page 124 and 125:
Figura 3. data flow pipeline Confer
Page 126 and 127:
administrative region (como por exe
Page 128 and 129:
INTEGRACIÓN SEMÁNTICA DE INFORMAC
Page 130 and 131:
Figura 1. Arquitectura • Document
Page 132 and 133:
4.2 Generación y Conversión de Co
Page 134 and 135:
SPARQL toma la descripción de lo q
Page 136 and 137:
EN BUSCA DEL TIPO DE SERVICIO WEB S
Page 138 and 139:
En la actualidad conviven cuatro pr
Page 140 and 141:
A continuación presentamos una tab
Page 142 and 143:
Page 144 and 145:
tecnologías de comunicación [3] p
Page 146 and 147:
para la conexión un cifrado median
Page 148 and 149:
Figura 4. Lanzamiento de la aplicac
Page 150 and 151:
USABILIDAD EN UN JUEGO DE MEMORAMA
Page 152 and 153:
Al finalizar la animación introduc
Page 154 and 155:
fueron asignados después de realiz
Page 156 and 157:
Page 158 and 159:
DEFINIENDO UNA ESTRUCTURA DE EVALUA
Page 160 and 161:
Consideración de la audiencia. Nue
Page 162 and 163:
Page 164 and 165:
señalan que con dos puede ser sufi
Page 166 and 167:
EXPERIÊNCIA NA CUSTOMIZAÇÃO DE U
Page 168 and 169:
temporal e o detalhamento das class
Page 170 and 171:
hipermídia, projetista de interfac
Page 172 and 173:
Index.csp Imovel.cls Imovel.csp P
Page 174 and 175:
ALGORITMOS PARA TOKENS DE AUTENTICA
Page 176 and 177:
3. PLATAFORMA Como token de baixo c
Page 178 and 179:
Tabela 1. Uso dos algoritmos de MAC
Page 180 and 181:
de processamento são executadas em
Page 182 and 183:
acadêmica, distribuição de mater
Page 184 and 185:
utilizados pelo sistema, e de como
Page 186 and 187: 5. FRAMEWORK PARA DOCUMENTAÇÃO DE
Page 188 and 189: 6. CONCLUSÃO A especificação de
Page 190 and 191: Conferência IADIS Ibero-Americana
Page 196 and 197: EVOLUCIÓN DE LA TOPOLOGÍA DE INTE
Page 198 and 199: 3. ADQUISICIÓN DE DATOS 3.1 Descri
Page 200 and 201: 4. MÉTRICAS CALCULADAS Todo los c
Page 202 and 203: 6. CONCLUSIONES Tabla 6. Evolución
Page 204 and 205: INTERNET COMO CANAL DE COMPRA: RESP
Page 206 and 207: 3. HIPÓTESIS Conferência IADIS Ib
Page 208 and 209: SEÑALES DE LA WEBMOSPHERE Dimensi
Page 212 and 213: USO DA INTERNET NO TURISMO: UMA PES
Page 214 and 215: Além das já citadas facilidades p
Page 216 and 217: enquadramento profissional dos entr
Page 218 and 219: Tabela 9. Opinião dos turistas sob
Page 220 and 221: SIMULADOR DO SERVIDOR DE HABILITAÇ
Page 222 and 223: Todas as conexões externas com o s
Page 224 and 225: 3.3 Base de Dados Internet Aplicaç
Page 226 and 227: etorno (número de identificação
Page 228 and 229: ANALISE DE DESEMPENHO DE PROTOCOLOS
Page 230 and 231: • EAP-TLS - EAP Transport Layer S
Page 232 and 233: Figura 2. Cenário dos testes No Qu
Page 234 and 235: Média de atraso Jitter Médio Nív
Page 238 and 239: • aAUTOMATOR API. Librería en la
Page 240 and 241: URLDownloader Cada cadena de texto
Page 242 and 243: Los robots se van construyendo dire
Page 244 and 245: MODELO DE QUALIDADE DE COMPONENTES
Page 248 and 249: Integração, configuração e inte
Page 250 and 251: implementação das funcionalidades
Page 252 and 253: UTILIZACIÓN DE GOOGLE SEARCH APPLI
Page 256 and 257: Figura 2. Control y Lógica de Nego
Page 258 and 259: Figura 5. Visualizador OpenMap Figu
Page 260: REFERENCIAS Conferência IADIS Iber
Page 264 and 265: EMOÇÕES COMO PARTE DE UM AMBIENTE
Page 266 and 267: 2.2 Identificação dos Eventos Con
Page 268 and 269: Sair do jogo Como você se sente sa
Page 270 and 271: efecto de solventar esta separació
Page 272 and 273: 5. El Generador de Informes, Diplom
Page 274 and 275: CONTEXTUALIZAÇÃO DA APRENDIZAGEM
Page 276 and 277: Os alunos de LabIII estavam numa fa
Page 278 and 279: REFERÊNCIAS Conferência IADIS Ibe
Page 280 and 281: debate, um exemplo gráfico desenha
Page 282 and 283: • Nome: Tom Características: Pes
Page 284 and 285: Este trabalho descreve o desenvolvi
Page 286 and 287:
4. CONCLUSÕES A proposta Web 2.0
Page 288 and 289:
Page 290 and 291:
La valoración de cada uno de los e
Page 292 and 293:
Page 294 and 295:
ao enunciado ou a submissão do fic
Page 296 and 297:
Figura 2. Exemplo da construção d
Page 298 and 299:
PROJECTO DE APLICAÇÃO EM INTERNET
Page 300 and 301:
No desenvolvimento para a Internet
Page 302 and 303:
AQUISIÇÃO E TRATAMENTO DE INFORMA
Page 304 and 305:
• Inclui políticas de autentica
Page 306 and 307:
com a perspectiva de manter a plata
Page 308 and 309:
contextualizada (e.g.. com base no
Page 310 and 311:
utilizador. O componente de gestão
Page 312 and 313:
Sistema de Archivos Protocolo Servi
Page 314 and 315:
Sistema B: Entorno: Windows/Access
Page 316 and 317:
APLICANDO CONCEPTOS DE TEORÍA DE L
Page 318 and 319:
comprobar la posibilidad de mejorar
Page 320 and 321:
EXTRACCIÓN DE PERFILES BASADA EN A
Page 322 and 323:
sesión Si se encuentra la distanci
Page 324 and 325:
datos fue dividido en conjunto de e
Page 326 and 327:
Page 328 and 329:
como o caminho de soluções de pro
Page 330 and 331:
PORTAIS WEB: ENQUADRAMENTO CONCEPTU
Page 332 and 333:
Page 334 and 335:
Page 336 and 337:
SOCIALIZACIÓN DE LA WEB SEMÁNTICA
Page 338 and 339:
1.4 Dimensiones de la Web 2.0 y la
Page 340 and 341:
facilitara la comparación de preci
Page 342 and 343:
palavras do autor, BI teria como um
Page 344 and 345:
configuração vinculado à soluç
Page 346 and 347:
2004) e de se conseguirem identific
Page 348 and 349:
Page 350 and 351:
Page 352 and 353:
O objectivo deste artigo é identif
Page 354 and 355:
3.2 Modelos de Maturidade para o Co
Page 356 and 357:
PANORÁMICA Y SITUACIÓN DEL ESTÁN
Page 358 and 359:
los mensajes distintos, etc. Este a
Page 360 and 361:
Ante este panorama, esperemos que e
Page 362 and 363:
Page 364 and 365:
significativos para a elaboração
Page 366 and 367:
MATERIALIZAÇÃO DE VANTAGENS COMPE
Page 368 and 369:
humanos, administração de serviç
Page 370 and 371:
execução das tarefas, à implanta
Page 372 and 373:
CATEGORIZAÇÃO AUTOMÁTICA DE DOCU
Page 374 and 375:
3. PROTÓTIPO No protótipo da ferr
Page 376 and 377:
REFERÊNCIAS Conferência IADIS Ibe
Page 378 and 379:
1998) e o da Pedagogia Instituciona
Page 380 and 381:
constituiriam novas versões sequen
Page 382 and 383:
UMA ARQUITETURA TOLERANTE A FALHAS
Page 384 and 385:
Os passos para descoberta e execuç
Page 386 and 387:
Nesse modelo, com o intuito de evit
Page 388 and 389:
XML. Para la elaboración de este s
Page 390 and 391:
5. Aplicar las medidas sobre cada u
Page 392 and 393:
UMA PROPOSTA PARA O DESENVOLVIMENTO
Page 394 and 395:
Atualmente, o termo ontologia vem s
Page 396:
propomos o desenvolvimento de uma o
Page 400 and 401:
MERCHANDISING EN INTERNET: NUEVAS T
Page 402 and 403:
documentos electrónicos, influyen
Page 404 and 405:
E_ReInAc: ELEARNING_REUSABILIDAD, I
Page 406 and 407:
2. MODELO TECNOPEDAGÓGICO DE SESIO
Page 408 and 409:
BIBLIOTECAS DIGITALES: CONCEPTOS Go
Page 410 and 411:
catálogo en línea, aunque este el
Page 412 and 413:
ESTRATEGIA COLABORATIVA Y DE CONOCI
Page 414 and 415:
PORTAL Portal del Instituto de la M
Page 416 and 417:
E-MERCADOS MEDIANTE P2P: UN NUEVO M
Page 418 and 419:
se han adoptado los requisitos mín
Page 420 and 421:
O CONTRIBUTO DAS TIC PARA O DESENVO
Page 422 and 423:
3. SISTEMA DE INFORMAÇÃO DO PATRI
Page 424:
destacar que o Abandono, a Erosão
Page 428 and 429:
UNA ONTOLOGÍA DE VINOS ESPAÑOLES
Page 430 and 431:
Como procedimiento de desarrollo de
Page 432 and 433:
FACTORES CRÍTICOS DA ADESÃO DAS P
Page 434 and 435:
Portugal, utilizando entrevistas; e
Page 436 and 437:
2. REPOSITÓRIOS DIGITAIS Um reposi
Page 438 and 439:
ESPECIFICAÇÃO DE UMA APLICAÇÃO
Page 440 and 441:
4. PROTÓTIPO FUNCIONAL Figura 2. D
Page 442 and 443:
AGENTES INTELIGENTES NO AMBIENTE VI
Page 444 and 445:
performativa confirm se for verdade
Page 446 and 447:
4. RESULTADOS DE LA INVESTIGACIÓN
Page 448 and 449:
ANÁLISE DE PROJECTOS DE INVESTIMEN
Page 450 and 451:
3. CONCLUSÃO O presente artigo rep
Page 452 and 453:
Os utilizadores VRIRI, Gestor Erasm
Page 454 and 455:
UTILIZAÇÃO DE OPÇÕES REAIS NA A
Page 456 and 457:
particularmente adequada em matéri
Page 458 and 459:
SISTEMA DE GESTÃO DE PROJECTOS ACA
Page 460 and 461:
alunos com base em critérios de at
Page 462 and 463:
como variáveis de restrição: des
Page 464 and 465:
REFERÊNCIAS Conferência IADIS Ibe
Page 466 and 467:
ocorrer. Desta forma, o risco como
Page 468:
organização. O desenvolvimento da
Page 471 and 472:
Guerra, A. ........................
show all

geração (semi)automática de metadados - Universidad Autónoma ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?