30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

APLICANDO CONCEPTOS DE TEORÍA DE LA<br />

INFORMACIÓN PARA EL FILTRADO DE CORREO SPAM<br />

José R. Mén<strong>de</strong>z, Ignacio Cid, Daniel Glez-Peña, Florentino F<strong>de</strong>z-Riverola<br />

<strong>Universidad</strong> <strong>de</strong> Vigo<br />

Escuela Superior <strong>de</strong> Ingeniería Informática, Edificio Politécnico, Campus Universitario As Lagoas s/n,<br />

32004, Ourense, España<br />

{moncho.men<strong>de</strong>z | icgomez | dgpena | riverola}@uvigo.es<br />

RESUMEN<br />

En los últimos años, <strong>de</strong>bido a la proliferación <strong>de</strong> gran cantidad <strong>de</strong> mensajes spam en Internet, la utilidad <strong>de</strong> los sistemas<br />

<strong>de</strong> correo electrónico se ha visto gravemente afectada. Durante estos años, se han logrado gran<strong>de</strong>s avances en la<br />

investigación para la creación <strong>de</strong> filtros antispam, como la construcción <strong>de</strong> filtros capaces <strong>de</strong> <strong>de</strong>tectar spam en imágenes o<br />

la creación <strong>de</strong>l sistema SPAMHUNTING. Este trabajo presenta un estudio preliminar sobre la viabilidad <strong>de</strong> aplicar<br />

conceptos pertenecientes a la teoría <strong>de</strong> la información propuesta por Shannon, con el objetivo <strong>de</strong> mejorar la precisión <strong>de</strong><br />

los filtros actuales. La propuesta se evalúa empleando como base el sistema SPAMHUNTING, llegando a la conclusión <strong>de</strong><br />

que es posible, en ciertos casos, mejorar el comportamiento <strong>de</strong> los filtros existentes.<br />

PALABRAS CLAVES<br />

filtros antispam, teoría <strong>de</strong> la información, SpamHunting,<br />

1. INTRODUCCIÓN<br />

Conferência IADIS Ibero-Americana WWW/Internet 2007<br />

El fenómeno <strong>de</strong>l spaming consiste en el envío indiscriminado <strong>de</strong> mensajes publicitarios y/o molestos a<br />

usuarios <strong>de</strong> correo electrónico y nuevos medios <strong>de</strong> comunicación. La mensajería instantánea, los foros <strong>de</strong><br />

noticias, los blogs y los mensajes a móviles son ejemplos <strong>de</strong> servicios comúnmente afectados por los envíos<br />

spam. La inmensa mayoría <strong>de</strong> los productos ofertados en estos mensajes son fraudulentos o incluso ilegales,<br />

y se anuncian empleando estos medios <strong>de</strong>bido a los bajos costes <strong>de</strong> este tipo <strong>de</strong> envíos. El empleo <strong>de</strong> Internet<br />

(una gran red financiada por todos sus usuarios) como infraestructura <strong>de</strong> comunicaciones y el pago <strong>de</strong><br />

cantida<strong>de</strong>s importantes <strong>de</strong> dinero a profesionales <strong>de</strong> la red (ComputerWorld, 2007) son el secreto <strong>de</strong> la<br />

viabilidad <strong>de</strong> este floreciente negocio.<br />

La forma más habitual <strong>de</strong> spam consiste en el envío <strong>de</strong> mensajes <strong>de</strong> correo electrónico basura. De hecho,<br />

gran parte <strong>de</strong>l volumen <strong>de</strong> mensajes enviados por Internet son spam, limitando la funcionalidad que ofrece<br />

este servicio a los usuarios finales. A<strong>de</strong>más, este tipo <strong>de</strong> actividad ilicita provoca problemas <strong>de</strong> privacidad <strong>de</strong>l<br />

correo electrónico (una vez que un spammer posee una dirección <strong>de</strong> correo electrónico <strong>de</strong> un usuario <strong>de</strong><br />

Internet, ya no cesará <strong>de</strong> enviarle mensajes spam), mayores costes económicos para los proveedores <strong>de</strong><br />

servicios <strong>de</strong> Internet y usuarios finales, así como una pérdida importante <strong>de</strong> tiempo para estos usuarios.<br />

Finalmente, el spam constituye un canal importante para la publicidad <strong>de</strong> drogas y productos ilegales, así<br />

como para la captación <strong>de</strong> personas con la finalidad <strong>de</strong> realizar activida<strong>de</strong>s ilícitas.<br />

La teoría <strong>de</strong> la información (Shannon, 1997) proporciona una nueva perspectiva para evaluar los sistemas<br />

<strong>de</strong> información, cuyo objetivo primario es obtener una medida cuantitativa <strong>de</strong> información contenida en un<br />

cierto dato o conocimiento. Para evaluar la información obtenida por un filtro antispam al conocer el valor <strong>de</strong><br />

una cierta variable (término o palabra), se consi<strong>de</strong>ra especialmente la probabilidad asociada a sus valores. En<br />

este sentido, los valores que tienen una menor probabilidad <strong>de</strong> aparición aportan una mayor cantidad <strong>de</strong><br />

información.<br />

Este trabajo presenta un estudio acerca <strong>de</strong> la viabilidad <strong>de</strong> aplicar conceptos relacionados con la teoría <strong>de</strong><br />

la información <strong>de</strong> Shannon, con el objetivo <strong>de</strong> mejorar el <strong>de</strong>sarrollo <strong>de</strong> filtros antispam. Como base <strong>de</strong> esta<br />

investigación se ha escogido un mo<strong>de</strong>lo híbrido <strong>de</strong> Inteligencia Artificial conocido con el nombre <strong>de</strong><br />

295

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!