20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Relación Dirección Peso<br />

Sinónimo, Atributo, Similar Horizontal 0,5<br />

Antónimo Horizontal 2,5<br />

Hiperónimo (Miembro|Parte| Es<strong>en</strong>cia) Merónimos Arriba 1,5<br />

Hipónimo (Miembro|Parte| Es<strong>en</strong>cia)<br />

Holónimo, Causa, Enlaces<br />

Abajo 1,5<br />

Tabla 1: Información <strong>de</strong> Dirección y Peso <strong>de</strong> las relaciones usadas <strong>en</strong> WordNet.<br />

Esta medida <strong>de</strong> distancia semántica propuesta es unidireccional, lo cual es<br />

conceptualm<strong>en</strong>te compatible con el hecho que las reglas ti<strong>en</strong><strong>en</strong> un antece<strong>de</strong>nte y un<br />

consecu<strong>en</strong>te, <strong>en</strong> don<strong>de</strong> wi w j ti<strong>en</strong>e una semántica distinta a w j wi<br />

.<br />

Con el fin <strong>de</strong> computar la distancia semántica <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong><br />

la regla, se utiliza un algoritmo que <strong>de</strong>termina el promedio <strong>de</strong> las distancias <strong>en</strong>tre los<br />

elem<strong>en</strong>tos individuales <strong>de</strong> una regla <strong>de</strong> acuerdo a los <strong>en</strong>laces exist<strong>en</strong>tes <strong>en</strong> WordNet.<br />

Posteriorm<strong>en</strong>te, las evaluaciones automáticas g<strong>en</strong>eradas por el algoritmo se comparan con<br />

evaluaciones realizadas por expertos <strong>de</strong> las mismas reglas. El objetivo <strong>de</strong> estos experim<strong>en</strong>tos<br />

es verificar si lo obt<strong>en</strong>ido con el algoritmo se correlaciona con los juicios <strong>de</strong> los humanos tan<br />

bi<strong>en</strong> como estos últimos se relacionan <strong>en</strong>tre sí. El mo<strong>de</strong>lo <strong>de</strong> Mooney [4] muestra que los<br />

resultados <strong>de</strong> las evaluaciones algoritmo-humano fueron similares a las evaluaciones humanohumano.<br />

El objetivo principal <strong>de</strong> este <strong>en</strong>foque es medir el grado <strong>de</strong> novedad <strong>de</strong> reglas obt<strong>en</strong>idas<br />

<strong>de</strong>s<strong>de</strong> textos basándose <strong>en</strong> el conocimi<strong>en</strong>to léxico aportado por WordNet. Sin embargo, la<br />

estrategia <strong>de</strong> evaluación requiere <strong>de</strong> una fu<strong>en</strong>te externa <strong>de</strong> conocimi<strong>en</strong>to y consecu<strong>en</strong>tem<strong>en</strong>te<br />

es altam<strong>en</strong>te <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te su organización. Otro inconv<strong>en</strong>i<strong>en</strong>te se pres<strong>en</strong>ta cuando el<br />

antece<strong>de</strong>nte o el consecu<strong>en</strong>te <strong>de</strong> la regla conti<strong>en</strong><strong>en</strong> términos que no exist<strong>en</strong> <strong>en</strong> WordNet. Esto<br />

origina que el método evalúe con un alto grado <strong>de</strong> interés a conceptos no exist<strong>en</strong>tes <strong>en</strong><br />

WordNet, <strong>de</strong>bido a que la distancia <strong>en</strong>tre ellos no existe, se asume muy gran<strong>de</strong>. No obstante,<br />

para los humanos estos patrones podrían no repres<strong>en</strong>tar interés alguno.<br />

Un <strong>en</strong>foque que no utiliza recursos externos <strong>de</strong> conocimi<strong>en</strong>to es propuesto por<br />

Toussaint et al. [6, 7, 20]. Aquí, se pres<strong>en</strong>tan dos métodos <strong>de</strong> clasificación <strong>de</strong> reglas <strong>de</strong><br />

asociación, uno basado <strong>en</strong> medidas numéricas <strong>de</strong> calidad y el otro basado <strong>en</strong> el conocimi<strong>en</strong>to<br />

<strong>de</strong>l dominio. El primero incorpora nuevas medidas numéricas que mi<strong>de</strong>n características <strong>de</strong> las<br />

reglas <strong>de</strong> asociación que no son contempladas por el support o confi<strong>de</strong>nce. En el segundo<br />

método, se mi<strong>de</strong> el grado <strong>de</strong> interés <strong>de</strong> acuerdo a la ubicación jerárquica <strong>de</strong>l antece<strong>de</strong>nte y el<br />

consecu<strong>en</strong>te <strong>de</strong> la regla <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong>l dominio, el cual se repres<strong>en</strong>ta como un conjunto<br />

finito y parcialm<strong>en</strong>te or<strong>de</strong>nado <strong>de</strong> términos que establece una relación <strong>de</strong> g<strong>en</strong>eralización. En<br />

ambos métodos se realiza un ranking <strong>de</strong> las reglas <strong>de</strong>scubiertas.<br />

Debido a la dificultad <strong>de</strong> las medidas tradicionales para capturar el grado <strong>de</strong> interés, <strong>en</strong><br />

el primer método se propon<strong>en</strong> cinco métricas adicionales al “support” y “confi<strong>de</strong>nce”. Dada<br />

una regla A B , las medidas se <strong>de</strong>fin<strong>en</strong> <strong>en</strong> base a información probabilística don<strong>de</strong> P(A) es<br />

la probabilidad <strong>de</strong>l número <strong>de</strong> conjuntos <strong>de</strong> textos que conti<strong>en</strong><strong>en</strong> el término A, y P(A B)<br />

es<br />

la probabilidad <strong>de</strong>l número <strong>de</strong> conjuntos <strong>de</strong> textos que conti<strong>en</strong><strong>en</strong> tanto a A como a B. Aquí se<br />

distingu<strong>en</strong> tres distribuciones <strong>de</strong> términos que resultan ser interes<strong>en</strong>tes para efectos <strong>de</strong> minería<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!