geração (semi)automática de metadados - Universidad Autónoma ...

More documents

Recommendations

Info

APLICANDO CONCEPTOS DE TEORÍA DE LA INFORMACIÓN PARA EL FILTRADO DE CORREO SPAM José R. Méndez, Ignacio Cid, Daniel Glez-Peña, Florentino Fdez-Riverola Universidad de Vigo Escuela Superior de Ingeniería Informática, Edificio Politécnico, Campus Universitario As Lagoas s/n, 32004, Ourense, España {moncho.mendez | icgomez | dgpena | riverola}@uvigo.es RESUMEN En los últimos años, debido a la proliferación de gran cantidad de mensajes spam en Internet, la utilidad de los sistemas de correo electrónico se ha visto gravemente afectada. Durante estos años, se han logrado grandes avances en la investigación para la creación de filtros antispam, como la construcción de filtros capaces de detectar spam en imágenes o la creación del sistema SPAMHUNTING. Este trabajo presenta un estudio preliminar sobre la viabilidad de aplicar conceptos pertenecientes a la teoría de la información propuesta por Shannon, con el objetivo de mejorar la precisión de los filtros actuales. La propuesta se evalúa empleando como base el sistema SPAMHUNTING, llegando a la conclusión de que es posible, en ciertos casos, mejorar el comportamiento de los filtros existentes. PALABRAS CLAVES filtros antispam, teoría de la información, SpamHunting, 1. INTRODUCCIÓN Conferência IADIS Ibero-Americana WWW/Internet 2007 El fenómeno del spaming consiste en el envío indiscriminado de mensajes publicitarios y/o molestos a usuarios de correo electrónico y nuevos medios de comunicación. La mensajería instantánea, los foros de noticias, los blogs y los mensajes a móviles son ejemplos de servicios comúnmente afectados por los envíos spam. La inmensa mayoría de los productos ofertados en estos mensajes son fraudulentos o incluso ilegales, y se anuncian empleando estos medios debido a los bajos costes de este tipo de envíos. El empleo de Internet (una gran red financiada por todos sus usuarios) como infraestructura de comunicaciones y el pago de cantidades importantes de dinero a profesionales de la red (ComputerWorld, 2007) son el secreto de la viabilidad de este floreciente negocio. La forma más habitual de spam consiste en el envío de mensajes de correo electrónico basura. De hecho, gran parte del volumen de mensajes enviados por Internet son spam, limitando la funcionalidad que ofrece este servicio a los usuarios finales. Además, este tipo de actividad ilicita provoca problemas de privacidad del correo electrónico (una vez que un spammer posee una dirección de correo electrónico de un usuario de Internet, ya no cesará de enviarle mensajes spam), mayores costes económicos para los proveedores de servicios de Internet y usuarios finales, así como una pérdida importante de tiempo para estos usuarios. Finalmente, el spam constituye un canal importante para la publicidad de drogas y productos ilegales, así como para la captación de personas con la finalidad de realizar actividades ilícitas. La teoría de la información (Shannon, 1997) proporciona una nueva perspectiva para evaluar los sistemas de información, cuyo objetivo primario es obtener una medida cuantitativa de información contenida en un cierto dato o conocimiento. Para evaluar la información obtenida por un filtro antispam al conocer el valor de una cierta variable (término o palabra), se considera especialmente la probabilidad asociada a sus valores. En este sentido, los valores que tienen una menor probabilidad de aparición aportan una mayor cantidad de información. Este trabajo presenta un estudio acerca de la viabilidad de aplicar conceptos relacionados con la teoría de la información de Shannon, con el objetivo de mejorar el desarrollo de filtros antispam. Como base de esta investigación se ha escogido un modelo híbrido de Inteligencia Artificial conocido con el nombre de 295
ISBN: 978–972–8924–45-4 © 2007 IADIS SPAMHUNTING (Fdez-Riverola et al., 2007). Este modelo se basa en el paradigma establecido por los sistemas de Razonamiento Basado en Casos (CBR, Case-Based Reasoning) (Watson y Marir, 1994). El resto de este trabajo se estructura como sigue: el siguiente apartado contextualiza e introduce el funcionamiento básico de SPAMHUNTING, un conocido filtro antispam, indicando cómo sacar partido de los conceptos relacionados con la teoría de la información. A continuación, en el tercer apartado se proporciona una descripción del protocolo experimental diseñado para comprobar la utilidad de las mejoras, así como los resultados obtenidos mediante su ejecución. Finalmente, se incorpora un apartado en el que figuran las conclusiones principales y las líneas de trabajo futuro. 2. APLICANDO LA TEORÍA DE LA INFORMACIÓN DE SHANNON En este apartado se presenta brevemente el proceso de clasificación llevado a cabo por el sistema SPAMHUNTING, introduciendo al mismo tiempo los cambios oportunos que permitan la aplicación de conceptos de la teoría de la información para mejorar su rendimiento global. Recientemente se desarrolló SPAMHUNTING (Fdez-Riverola et al., 2007), un sistema de filtrado basado en la reutilización de conocimiento generado durante experiencias anteriores. En este sentido, cuando SPAMHUNTING recibe un nuevo mensaje es capaz de identificar sus términos más relevantes (Méndez et al., 2006). Estos términos determinan la temática del correo de tal forma que, mediante su utilización, es posible la búsqueda de otros mensajes previamente clasificados similares al correo objetivo (fase de recuperación). Los mensajes así obtenidos son empleados en la generación de una solución para el correo a clasificar (fase de reutilización) así como una medida de fiabilidad de la respuesta proporcionada (fase de revisión). Finalmente, el mensaje junto con su solución se almacena en la memoria del sistema con la finalidad de que pueda ser empleado en el futuro para la clasificación de nuevos correos (fase de aprendizaje). Como se puede ver en el trabajo de Fdez-Riverola et al. (2007) los resultados generados mediante la herramienta son muy prometedores, superando con creces a los obtenidos empleando otro tipo de aproximaciones. En este trabajo se realiza una evaluación del impacto de la utilización de una medida de longitud de las palabras, como complemento al proceso de selección de términos relevantes usada en SPAMHUNTING (Méndez et al., 2006). El modelo actual se basa en el empleo de una medida capaz de evaluar la aportación de información (AI) obtenida cuando un término, t, se emplea para representar un e-mail, e. El cálculo de esta medida se muestra en la siguiente expresión: ⎡ P( spam) ⋅P( t ∧ spam) − P( legitimate) ⋅P( t ∧legitimate) ⎤ AI (, t e) = P( t ∧e) ⋅ ⎢ ⎣ Pt () ⎥ ⎦ donde P(t ∧ e) representa la frecuencia del término t dentro del mensaje e, P(spam) y P(legitimate) representan respectivamente la probabilidad de mensajes spam y legítimos, P(t ∧ spam) y P(t ∧ legitimate) representan la probabilidad de encontrar mensajes spam y legítimos que contengan el término t y, finalmente, P(t) representa la probabilidad de encontrar un mensaje con el término t. Como se puede ver, el cálculo de la aportación de información de cada término implica el empleo de conocimiento extraído del propio mensaje, P(t, e), así como información relativa a la capacidad de los términos para distinguir entre las dos clases de correos, estimada a través de los mensajes almacenados en la memoria del sistema. Los términos seleccionados para la representación de cada mensaje, se escogen en función de la medida de aportación de información expuesta. En este sentido, para cada mensaje se seleccionará el conjunto mínimo que contenga los términos que aporten una mayor cantidad de información, tal que la suma de las aportaciones de información de los términos sea mayor que un determinado porcentaje. Según la teoría de información de Shannon, las palabras que tienen un mayor número de caracteres aportan mayor cantidad de información en los procesos de minería de texto por el hecho de ser menos frecuentes. La siguiente expresión muestra cómo puede ser modificado el cálculo de la información adquirida (AI), para incorporar información relativa a la longitud de los términos del mensaje: ⎡ 1 ⎤ AI'( t, e) = 1 ⋅ ⎢ − ⎥ AI( t, e) ⎣ length() t ⎦ donde length(t) representa el número de caracteres (letras) del término t. Tomando como marco de referencia el proceso de cálculo de la información adquirida mediante el uso de un término (definido según las expresiones anteriores), se llevó a cabo un desarrollo experimental para 296
Page 2:
. CONFERÊNCIA IADIS IBERO-AMERICAN
Page 5 and 6:
Copyright 2007 IADIS Press Todos os
Page 7 and 8:
E-GOV BRASILEIRO: UMA ANÁLISE DOS
Page 9 and 10:
APLICACIÓN DE UN ÍNDICE DE EVALUA
Page 11 and 12:
POSTERS UNA ONTOLOGÍA DE VINOS ESP
Page 13 and 14:
Por fim desejamos que todos os part
Page 15 and 16:
Carlos Juiz, Universidad de las Isl
Page 17 and 18:
María Dolores Ayuso, Universidad d
Page 19 and 20:
xviii
Page 21 and 22:
Os Ambientes Inteligentes podem ser
Page 24 and 25:
EM BUSCA DE UM ENSINO COMPLEMENTAR
Page 26 and 27:
Figura 1. Simulador de robô O requ
Page 28 and 29:
Conferência IADIS Ibero-Americana
Page 30 and 31:
AGRADECIMENTOS Intel Educação; Mi
Page 32 and 33:
Ao longo dos últimos anos, a ESEB
Page 34 and 35:
Contrariamente às etapas anteriore
Page 36 and 37:
3.3 Resource Description Framework
Page 38 and 39:
Page 40 and 41:
Page 42 and 43:
a) Acompanhamento de acesso e freq
Page 44 and 45:
Nesta perspectiva, houve um redimen
Page 46 and 47:
troca representa apenas 1 (um) dos
Page 48 and 49:
UMA FERRAMENTA PARA ACOMPANHAMENTO
Page 50 and 51:
permite analisar a capacidade cogni
Page 52 and 53:
• Objeto de aprendizagem (OA) = u
Page 54 and 55:
5. VALIDAÇÃO DA FERRAMENTA Para v
Page 56 and 57:
RECOMENDACIÓN DE PERFILES ACADÉMI
Page 58 and 59:
Page 60 and 61:
Número de Vecinos Factor de relev
Page 62 and 63:
Figura 3. Recomendaciones para asig
Page 64 and 65:
UMA FERRAMENTA DE MINERAÇÃO DE TE
Page 66 and 67:
Os trabalhos encontrados no levanta
Page 68 and 69:
3.2 Módulo de Inteligência Figura
Page 70 and 71:
seleção executa os seguintes pass
Page 72 and 73:
HIPERMÍDIA ADAPTATIVA COMO ESTRAT
Page 74 and 75:
3. SISTEMAS DE HIPERMÍDIA ADAPTATI
Page 76 and 77:
Page 78 and 79:
âncoras ordenadas poderão estar e
Page 80 and 81:
MODELO PARA LA GESTIÓN DEL E-LEARN
Page 82 and 83:
2. EL MODELO 2.1 El Contexto Confer
Page 84 and 85:
Duart y Sangrà (2000), debe permit
Page 86 and 87:
Eje 5: eProcesos Medida 5.1: eMárk
Page 88 and 89:
A ATENÇÃO AO ECONÓMICO, AO SOCIA
Page 90 and 91:
A região de Lisboa aparece-nos com
Page 92 and 93:
do ambiente. O valor dos muito fort
Page 94 and 95:
É esmagador, 195, o número de sit
Page 96 and 97:
E-GOV BRASILEIRO: UMA ANÁLISE DOS
Page 98 and 99:
2.2 Coleta e Integração dos Dados
Page 100 and 101:
município brasileiro, sendo que: (
Page 102 and 103:
significa que um cidadão com acess
Page 104 and 105:
MSB: UNA APLICACIÓN WWW PARA GENER
Page 106 and 107:
minar qué eventos resultan relevan
Page 108 and 109:
daños > caudal > volumen > lluvia
Page 110 and 111:
MSB presenta también similitudes c
Page 112 and 113:
DISEÑO DE UNA HERRAMIENTA PARA EL
Page 114 and 115:
Page 116 and 117:
Figura 2. Creación de Caso de Uso
Page 118 and 119:
conjuntamente con la información r
Page 120 and 121:
UM MODELO ONTOLÓGICO PARA O CONTEX
Page 122 and 123:
sejam capazes de reconhecer quais o
Page 124 and 125:
Figura 3. data flow pipeline Confer
Page 126 and 127:
administrative region (como por exe
Page 128 and 129:
INTEGRACIÓN SEMÁNTICA DE INFORMAC
Page 130 and 131:
Figura 1. Arquitectura • Document
Page 132 and 133:
4.2 Generación y Conversión de Co
Page 134 and 135:
SPARQL toma la descripción de lo q
Page 136 and 137:
EN BUSCA DEL TIPO DE SERVICIO WEB S
Page 138 and 139:
En la actualidad conviven cuatro pr
Page 140 and 141:
A continuación presentamos una tab
Page 142 and 143:
Page 144 and 145:
tecnologías de comunicación [3] p
Page 146 and 147:
para la conexión un cifrado median
Page 148 and 149:
Figura 4. Lanzamiento de la aplicac
Page 150 and 151:
USABILIDAD EN UN JUEGO DE MEMORAMA
Page 152 and 153:
Al finalizar la animación introduc
Page 154 and 155:
fueron asignados después de realiz
Page 156 and 157:
Page 158 and 159:
DEFINIENDO UNA ESTRUCTURA DE EVALUA
Page 160 and 161:
Consideración de la audiencia. Nue
Page 162 and 163:
Page 164 and 165:
señalan que con dos puede ser sufi
Page 166 and 167:
EXPERIÊNCIA NA CUSTOMIZAÇÃO DE U
Page 168 and 169:
temporal e o detalhamento das class
Page 170 and 171:
hipermídia, projetista de interfac
Page 172 and 173:
Index.csp Imovel.cls Imovel.csp P
Page 174 and 175:
ALGORITMOS PARA TOKENS DE AUTENTICA
Page 176 and 177:
3. PLATAFORMA Como token de baixo c
Page 178 and 179:
Tabela 1. Uso dos algoritmos de MAC
Page 180 and 181:
de processamento são executadas em
Page 182 and 183:
acadêmica, distribuição de mater
Page 184 and 185:
utilizados pelo sistema, e de como
Page 186 and 187:
5. FRAMEWORK PARA DOCUMENTAÇÃO DE
Page 188 and 189:
6. CONCLUSÃO A especificação de
Page 190 and 191:
Page 192 and 193:
Page 194 and 195:
Page 196 and 197:
EVOLUCIÓN DE LA TOPOLOGÍA DE INTE
Page 198 and 199:
3. ADQUISICIÓN DE DATOS 3.1 Descri
Page 200 and 201:
4. MÉTRICAS CALCULADAS Todo los c
Page 202 and 203:
6. CONCLUSIONES Tabla 6. Evolución
Page 204 and 205:
INTERNET COMO CANAL DE COMPRA: RESP
Page 206 and 207:
3. HIPÓTESIS Conferência IADIS Ib
Page 208 and 209:
SEÑALES DE LA WEBMOSPHERE Dimensi
Page 210 and 211:
Page 212 and 213:
USO DA INTERNET NO TURISMO: UMA PES
Page 214 and 215:
Além das já citadas facilidades p
Page 216 and 217:
enquadramento profissional dos entr
Page 218 and 219:
Tabela 9. Opinião dos turistas sob
Page 220 and 221:
SIMULADOR DO SERVIDOR DE HABILITAÇ
Page 222 and 223:
Todas as conexões externas com o s
Page 224 and 225:
3.3 Base de Dados Internet Aplicaç
Page 226 and 227:
etorno (número de identificação
Page 228 and 229:
ANALISE DE DESEMPENHO DE PROTOCOLOS
Page 230 and 231:
• EAP-TLS - EAP Transport Layer S
Page 232 and 233:
Figura 2. Cenário dos testes No Qu
Page 234 and 235:
Média de atraso Jitter Médio Nív
Page 236 and 237:
aAUTOMATOR: HERRAMIENTA FLEXIBLE PA
Page 238 and 239:
• aAUTOMATOR API. Librería en la
Page 240 and 241:
URLDownloader Cada cadena de texto
Page 242 and 243:
Los robots se van construyendo dire
Page 244 and 245:
MODELO DE QUALIDADE DE COMPONENTES
Page 246 and 247:
Page 248 and 249:
Integração, configuração e inte
Page 250 and 251:
implementação das funcionalidades
Page 252 and 253:
UTILIZACIÓN DE GOOGLE SEARCH APPLI
Page 254 and 255:
Page 256 and 257:
Figura 2. Control y Lógica de Nego
Page 258 and 259:
Figura 5. Visualizador OpenMap Figu
Page 260:
REFERENCIAS Conferência IADIS Iber
Page 264 and 265:
EMOÇÕES COMO PARTE DE UM AMBIENTE
Page 266 and 267: 2.2 Identificação dos Eventos Con
Page 268 and 269: Sair do jogo Como você se sente sa
Page 270 and 271: efecto de solventar esta separació
Page 272 and 273: 5. El Generador de Informes, Diplom
Page 274 and 275: CONTEXTUALIZAÇÃO DA APRENDIZAGEM
Page 276 and 277: Os alunos de LabIII estavam numa fa
Page 278 and 279: REFERÊNCIAS Conferência IADIS Ibe
Page 280 and 281: debate, um exemplo gráfico desenha
Page 282 and 283: • Nome: Tom Características: Pes
Page 284 and 285: Este trabalho descreve o desenvolvi
Page 286 and 287: 4. CONCLUSÕES A proposta Web 2.0
Page 288 and 289: Conferência IADIS Ibero-Americana
Page 290 and 291: La valoración de cada uno de los e
Page 294 and 295: ao enunciado ou a submissão do fic
Page 296 and 297: Figura 2. Exemplo da construção d
Page 298 and 299: PROJECTO DE APLICAÇÃO EM INTERNET
Page 300 and 301: No desenvolvimento para a Internet
Page 302 and 303: AQUISIÇÃO E TRATAMENTO DE INFORMA
Page 304 and 305: • Inclui políticas de autentica
Page 306 and 307: com a perspectiva de manter a plata
Page 308 and 309: contextualizada (e.g.. com base no
Page 310 and 311: utilizador. O componente de gestão
Page 312 and 313: Sistema de Archivos Protocolo Servi
Page 314 and 315: Sistema B: Entorno: Windows/Access
Page 318 and 319: comprobar la posibilidad de mejorar
Page 320 and 321: EXTRACCIÓN DE PERFILES BASADA EN A
Page 322 and 323: sesión Si se encuentra la distanci
Page 324 and 325: datos fue dividido en conjunto de e
Page 328 and 329: como o caminho de soluções de pro
Page 330 and 331: PORTAIS WEB: ENQUADRAMENTO CONCEPTU
Page 336 and 337: SOCIALIZACIÓN DE LA WEB SEMÁNTICA
Page 338 and 339: 1.4 Dimensiones de la Web 2.0 y la
Page 340 and 341: facilitara la comparación de preci
Page 342 and 343: palavras do autor, BI teria como um
Page 344 and 345: configuração vinculado à soluç
Page 346 and 347: 2004) e de se conseguirem identific
Page 352 and 353: O objectivo deste artigo é identif
Page 354 and 355: 3.2 Modelos de Maturidade para o Co
Page 356 and 357: PANORÁMICA Y SITUACIÓN DEL ESTÁN
Page 358 and 359: los mensajes distintos, etc. Este a
Page 360 and 361: Ante este panorama, esperemos que e
Page 364 and 365: significativos para a elaboração
Page 366 and 367:
MATERIALIZAÇÃO DE VANTAGENS COMPE
Page 368 and 369:
humanos, administração de serviç
Page 370 and 371:
execução das tarefas, à implanta
Page 372 and 373:
CATEGORIZAÇÃO AUTOMÁTICA DE DOCU
Page 374 and 375:
3. PROTÓTIPO No protótipo da ferr
Page 376 and 377:
REFERÊNCIAS Conferência IADIS Ibe
Page 378 and 379:
1998) e o da Pedagogia Instituciona
Page 380 and 381:
constituiriam novas versões sequen
Page 382 and 383:
UMA ARQUITETURA TOLERANTE A FALHAS
Page 384 and 385:
Os passos para descoberta e execuç
Page 386 and 387:
Nesse modelo, com o intuito de evit
Page 388 and 389:
XML. Para la elaboración de este s
Page 390 and 391:
5. Aplicar las medidas sobre cada u
Page 392 and 393:
UMA PROPOSTA PARA O DESENVOLVIMENTO
Page 394 and 395:
Atualmente, o termo ontologia vem s
Page 396:
propomos o desenvolvimento de uma o
Page 400 and 401:
MERCHANDISING EN INTERNET: NUEVAS T
Page 402 and 403:
documentos electrónicos, influyen
Page 404 and 405:
E_ReInAc: ELEARNING_REUSABILIDAD, I
Page 406 and 407:
2. MODELO TECNOPEDAGÓGICO DE SESIO
Page 408 and 409:
BIBLIOTECAS DIGITALES: CONCEPTOS Go
Page 410 and 411:
catálogo en línea, aunque este el
Page 412 and 413:
ESTRATEGIA COLABORATIVA Y DE CONOCI
Page 414 and 415:
PORTAL Portal del Instituto de la M
Page 416 and 417:
E-MERCADOS MEDIANTE P2P: UN NUEVO M
Page 418 and 419:
se han adoptado los requisitos mín
Page 420 and 421:
O CONTRIBUTO DAS TIC PARA O DESENVO
Page 422 and 423:
3. SISTEMA DE INFORMAÇÃO DO PATRI
Page 424:
destacar que o Abandono, a Erosão
Page 428 and 429:
UNA ONTOLOGÍA DE VINOS ESPAÑOLES
Page 430 and 431:
Como procedimiento de desarrollo de
Page 432 and 433:
FACTORES CRÍTICOS DA ADESÃO DAS P
Page 434 and 435:
Portugal, utilizando entrevistas; e
Page 436 and 437:
2. REPOSITÓRIOS DIGITAIS Um reposi
Page 438 and 439:
ESPECIFICAÇÃO DE UMA APLICAÇÃO
Page 440 and 441:
4. PROTÓTIPO FUNCIONAL Figura 2. D
Page 442 and 443:
AGENTES INTELIGENTES NO AMBIENTE VI
Page 444 and 445:
performativa confirm se for verdade
Page 446 and 447:
4. RESULTADOS DE LA INVESTIGACIÓN
Page 448 and 449:
ANÁLISE DE PROJECTOS DE INVESTIMEN
Page 450 and 451:
3. CONCLUSÃO O presente artigo rep
Page 452 and 453:
Os utilizadores VRIRI, Gestor Erasm
Page 454 and 455:
UTILIZAÇÃO DE OPÇÕES REAIS NA A
Page 456 and 457:
particularmente adequada em matéri
Page 458 and 459:
SISTEMA DE GESTÃO DE PROJECTOS ACA
Page 460 and 461:
alunos com base em critérios de at
Page 462 and 463:
como variáveis de restrição: des
Page 464 and 465:
REFERÊNCIAS Conferência IADIS Ibe
Page 466 and 467:
ocorrer. Desta forma, o risco como
Page 468:
organização. O desenvolvimento da
Page 471 and 472:
Guerra, A. ........................
show all

geração (semi)automática de metadados - Universidad Autónoma ...

Create successful ePaper yourself

Delete template?

Save as template?