20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

(“target concepts”), <strong>en</strong> el s<strong>en</strong>tido tradicional <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>. Con el fin <strong>de</strong> evaluar los<br />

patrones <strong>de</strong>scubiertos, se utiliza una estrategia basada <strong>en</strong> cálculo <strong>de</strong> “fitness” a partir <strong>de</strong><br />

múltiples objetivos, los que se integran para g<strong>en</strong>erar valores <strong>de</strong> evaluación a través <strong>de</strong> una<br />

estrategia basada <strong>en</strong> SPEA (Str<strong>en</strong>gh Pareto Evolutionary Algorithm) [43].<br />

La evaluación <strong>de</strong> patrones se lleva a cabo utilizando seis métricas <strong>de</strong> evaluación. Por<br />

un lado, las cuatro primeras consi<strong>de</strong>ran información semántica para asegurar que las hipótesis<br />

g<strong>en</strong>eradas sean coher<strong>en</strong>tes y plausibles. Por otro lado, buscan medir criterios más subjetivos<br />

<strong>de</strong> las hipótesis por medio <strong>de</strong> las métricas <strong>de</strong> interés, relevancia, simplicidad y novedad.<br />

1) Estructura: mi<strong>de</strong> la información retórica a nivel <strong>de</strong> discurso que conti<strong>en</strong><strong>en</strong> las hipótesis<br />

y busca respon<strong>de</strong>r a la pregunta ¿Qué tan bu<strong>en</strong>a es la estructura <strong>de</strong> la hipótesis?.<br />

2) Cohesión: mi<strong>de</strong> la asociación <strong>en</strong>tre una acción <strong>de</strong> predicativa con algún rol retórico<br />

específico, esta interrogante nace <strong>de</strong>bido a que algunas relaciones <strong>de</strong> predicados ti<strong>en</strong>e una<br />

probabilidad mayor <strong>de</strong> estar asociadas con algunos roles retóricos.<br />

3) Coher<strong>en</strong>cia: mi<strong>de</strong> cómo los elem<strong>en</strong>tos <strong>de</strong> la hipótesis actual se relacionan a cada una <strong>de</strong><br />

las otras <strong>de</strong> forma semánticam<strong>en</strong>te coher<strong>en</strong>te.<br />

4) Interés: mi<strong>de</strong> el grado <strong>de</strong> disimilaridad semántica <strong>en</strong>tre los elem<strong>en</strong>tos <strong>de</strong> una hipótesis.<br />

5) Relevancia: mi<strong>de</strong> el grado <strong>de</strong> explicación <strong>de</strong>l conocimi<strong>en</strong>to <strong>de</strong>scubierto,<br />

específicam<strong>en</strong>te evalúa la semántica <strong>de</strong> una hipótesis con respecto a su cercanía a los<br />

conceptos objetivos <strong>de</strong>finidos por el “usuario” para <strong>en</strong>tregar más información <strong>de</strong> las<br />

relaciones <strong>de</strong>sconocidas <strong>en</strong>tre estos conceptos.<br />

6) Novedad: <strong>de</strong>termina el grado <strong>de</strong> “plausibilidad” <strong>de</strong> una hipótesis que ha sido producida<br />

recordando la calidad <strong>de</strong> la infer<strong>en</strong>cia <strong>de</strong> esta hipótesis <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong> su creación.<br />

El mo<strong>de</strong>lo <strong>de</strong> evaluación es aplicado con un corpus <strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> un cierto<br />

dominio, a partir <strong>de</strong>l cual se g<strong>en</strong>era un conjunto <strong>de</strong> las mejores hipótesis. Posteriorm<strong>en</strong>te se<br />

realiza la evaluación automática <strong>de</strong> hipótesis que se compara con la evaluación llevada a cabo<br />

por expertos humanos <strong>en</strong> el dominio específico.<br />

La evaluación experim<strong>en</strong>tal <strong>de</strong>l mo<strong>de</strong>lo muestra que el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> éste es<br />

comparable al <strong>de</strong> los expertos. Así, el mo<strong>de</strong>lo es efectivo <strong>en</strong> términos <strong>de</strong> <strong>de</strong>scubrir patrones <strong>de</strong><br />

“calidad” <strong>de</strong> forma in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l dominio y con resultados superiores a otros mo<strong>de</strong>los<br />

que utilizan ontologías o bases <strong>de</strong> datos léxicas.<br />

A difer<strong>en</strong>cia <strong>de</strong> los otros trabajos, este <strong>en</strong>foque es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l dominio y no<br />

requiere <strong>de</strong> una fu<strong>en</strong>te <strong>de</strong> conocimi<strong>en</strong>to externa, por lo tanto podría aplicarse <strong>en</strong> distintos<br />

dominios sin la necesidad <strong>de</strong> gran<strong>de</strong>s modificaciones. Al no <strong>de</strong>p<strong>en</strong><strong>de</strong>r <strong>de</strong> una fu<strong>en</strong>te <strong>de</strong><br />

conocimi<strong>en</strong>to siempre va a evaluar el grado <strong>de</strong> interés <strong>de</strong> las reglas <strong>de</strong> acuerdo a sus<br />

características, lo cual no ocurre <strong>en</strong> los otros dos <strong>en</strong>foques <strong>de</strong>bido a que si una palabra <strong>de</strong> la<br />

regla no se <strong>en</strong>cu<strong>en</strong>tra <strong>de</strong>finida, la evaluación es difer<strong>en</strong>te a las que si aparec<strong>en</strong> <strong>en</strong> su fu<strong>en</strong>te <strong>de</strong><br />

conocimi<strong>en</strong>to.<br />

44

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!