20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

UNIVERSIDAD DE CONCEPCIÓN<br />

FACULTAD DE INGENIERÍA<br />

PROGRAMA DE MAGÍSTER EN CIENCIAS DE LA COMPUTACIÓN<br />

<strong>Evaluación</strong> <strong>de</strong> <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong> <strong>en</strong> <strong>Text</strong> <strong>Mining</strong><br />

<strong>Utilizando</strong> Métricas Semánticas y Estructurales<br />

Profesor Guía: John Atkinson Abutridy<br />

Dpto. <strong>de</strong> Informática y Ci<strong>en</strong>cias <strong>de</strong> la Computación<br />

Facultad <strong>de</strong> Ing<strong>en</strong>iería<br />

Universidad <strong>de</strong> Concepción<br />

Tesis para ser pres<strong>en</strong>tada a la Dirección <strong>de</strong> Postgrado <strong>de</strong> la Universidad<br />

<strong>de</strong> Concepción<br />

CLAUDIO ALBERTO PÉREZ CÁRCAMO<br />

CONCEPCIÓN-CHILE<br />

2010


Agra<strong>de</strong>cimi<strong>en</strong>tos<br />

A mi madre, otra vez gracias a ti el día <strong>de</strong> hoy estoy finalizando otra etapa <strong>de</strong> mi<br />

carrera profesional. Gracias por tu apoyo incondicional y el amor que me <strong>en</strong>tregas día a día.<br />

Cada día te quiero más.<br />

A mi abuelita, tío Manuel, familiares y Ernestito, por la confianza, apoyo y amor que recibo<br />

<strong>de</strong> parte <strong>de</strong> uste<strong>de</strong>s, muchas gracias. Los quiero <strong>de</strong>masiado.<br />

Al profesor John, por guiarme <strong>de</strong> excel<strong>en</strong>te manera <strong>en</strong> el <strong>de</strong>sarrollo <strong>de</strong> esta tesis, por<br />

tu <strong>de</strong>dicación, motivación y amistad, muchas gracias.<br />

A mis amigos, por po<strong>de</strong>r contar con su confianza y amistad incondicional.<br />

Este proyecto ha sido realizado <strong>en</strong> el contexto <strong>de</strong>l proyecto FONDECYT No. 1070714,<br />

An Interactive Natural-Language Dialogue Mo<strong>de</strong>l for Intellig<strong>en</strong>t Filtering Based on Patterns<br />

Discovered from <strong>Text</strong> Docum<strong>en</strong>ts, dirigido por el profesor Dr. John Atkinson.<br />

2


Resum<strong>en</strong><br />

Tareas tradicionales <strong>en</strong> minería <strong>de</strong> textos <strong>de</strong>scubr<strong>en</strong> patrones <strong>de</strong>sconocidos consi<strong>de</strong>rados<br />

interesantes <strong>de</strong>s<strong>de</strong> un punto <strong>de</strong> vista estadístico usando métricas estándar. Esta evaluación<br />

estadística no toma <strong>en</strong> cu<strong>en</strong>ta mo<strong>de</strong>los m<strong>en</strong>tales, usuarios o conocimi<strong>en</strong>to <strong>de</strong>l dominio.<br />

Mi<strong>en</strong>tras exist<strong>en</strong> algunos <strong>en</strong>foques para evaluar patrones (reglas <strong>de</strong> asociación) <strong>en</strong> text mining<br />

éstos fallan <strong>en</strong> <strong>de</strong>terminar con exactitud cuales <strong>de</strong> los patrones <strong>de</strong>scubiertos resultan ser<br />

interesantes/novedosos. En esta tesis, se propone y discute un nuevo <strong>en</strong>foque que combina<br />

semántica basada <strong>en</strong> corpus (LSA) y mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to basado <strong>en</strong> Lattices. Los<br />

Experim<strong>en</strong>tos realizados utilizando nuestro <strong>en</strong>foque <strong>en</strong> comparación con otros mo<strong>de</strong>los <strong>de</strong><br />

evaluación <strong>de</strong>l estado <strong>de</strong>l arte muestran lo promisorio <strong>de</strong> nuestro método para evaluar los<br />

patrones <strong>de</strong>scubiertos como interesantes o sin interés hacia expertos humanos.<br />

3


Summary<br />

Traditional tasks for text mining discover unse<strong>en</strong> patterns which are supposed to be<br />

interesting from a statistical point of view by using standard metrics. This evaluation's<br />

statistical nature does not take into account m<strong>en</strong>tal mo<strong>de</strong>ls, users or ev<strong>en</strong> domain knowledge.<br />

While there is a few approaches to assess patterns (i.e., association rules) in texts mining these<br />

fail to accurately <strong>de</strong>termine whether the discovered patterns are interesting/novel. In this<br />

paper, a new approach which combines corpus based semantics (i.e., LSA) and lattices based<br />

knowledge mo<strong>de</strong>ls is proposed and discussed. Experim<strong>en</strong>ts using our approach and<br />

comparisons with state-of-the-art evaluation metrics show the promise of the method with<br />

regard to discovered patterns as interesting or uninteresting to human experts.<br />

4


Índice<br />

1. INTRODUCCIÓN ............................................................................................................................................8<br />

1.1 HIPÓTESIS DE TRABAJO .......................................................................................................................10<br />

1.2 OBJETIVOS............................................................................................................................................10<br />

1.3 ORGANIZACIÓN DE LA TESIS ...............................................................................................................10<br />

2. FUNDAMENTOS TEÓRICOS.....................................................................................................................11<br />

2.1 TEXT MINING ......................................................................................................................................11<br />

2.2 ANÁLISIS SEMÁNTICO LATENTE.........................................................................................................25<br />

3. TRABAJOS RELACIONADOS ...................................................................................................................31<br />

4. MODELO MULTIESTRATEGIA DE EVALUACIÓN DE REGLAS DE ASOCIACIÓN....................45<br />

4.1 PREPROCESAMIENTO...........................................................................................................................47<br />

4.2 GENERACIÓN DEL MODELO DE CONOCIMIENTO................................................................................49<br />

4.3 GENERACIÓN Y EVALUACIÓN DE REGLAS DE ASOCIACIÓN..............................................................52<br />

5. EXPERIMENTOS Y RESULTADOS..........................................................................................................56<br />

5.1 EXPERIMENTOS DE AJUSTE.................................................................................................................56<br />

5.2 EXPERIMENTOS FINALES.....................................................................................................................58<br />

6. CONCLUSIONES ..........................................................................................................................................61<br />

7. REFERENCIAS..............................................................................................................................................62<br />

8. DOCUMENTACIÓN ANEXA..........................................................................................................................65<br />

8.1 LISTA STOPWORDS .............................................................................................................................65<br />

5


Índice <strong>de</strong> Figuras<br />

Figura 1: Descubrimi<strong>en</strong>to <strong>de</strong> Conocimi<strong>en</strong>tos <strong>de</strong>s<strong>de</strong> <strong>Text</strong>os..............................................................................11<br />

Figura 2: Proceso <strong>de</strong> Clasificación: etapa <strong>de</strong> apr<strong>en</strong>dizaje...............................................................................16<br />

Figura 3: Proceso <strong>de</strong> Clasificación: etapa <strong>de</strong> Clasificación............................................................................17<br />

Figura 4: Transacciones <strong>en</strong> una base <strong>de</strong> datos D..............................................................................................21<br />

Figura 5: Lattice <strong>de</strong> itemsets <strong>de</strong> la base <strong>de</strong> datos D..........................................................................................21<br />

Figura 6: Lattice <strong>de</strong> itemsets cerrados para D. .................................................................................................23<br />

Figura 7: Una matriz <strong>de</strong> palabras por contextos...............................................................................................27<br />

Figura 8: SVD completo <strong>de</strong> la matriz <strong>en</strong> la figura 8..........................................................................................28<br />

Figura 9: Reconstrucción <strong>de</strong> {X} basada <strong>en</strong> las columnas y filas sombreadas <strong>de</strong>l SVD <strong>de</strong> la Figura 9.....29<br />

Figura 10: Intercorrelaciones <strong>en</strong>tre vectores <strong>de</strong> la figura 8 y <strong>de</strong> la figura 9. ...............................................30<br />

Figura 11: Mejores casos <strong>de</strong> variación <strong>de</strong> D(A) y D(B). ................................................................................33<br />

Figura 12: Lattice Conceptual............................................................................................................................37<br />

Figura 13: Lattice Conceptual............................................................................................................................38<br />

Figura 14: <strong>Reglas</strong> <strong>de</strong> asociación informativas g<strong>en</strong>eradas a partir <strong>de</strong> la tabla 2............................................39<br />

Figura 15: Ejemplo <strong>de</strong> un Mo<strong>de</strong>lo <strong>de</strong> Conocimi<strong>en</strong>to.........................................................................................40<br />

Figura 16: Enfoque multi-estrategia <strong>de</strong> evaluación <strong>de</strong> patrones. ....................................................................46<br />

Figura 17: Algoritmo Creación Lattice Conceptual Semántico (LCS). ...........................................................46<br />

Figura 18: Lattice Conceptual Semántico con Umbral LSA=1.0....................................................................50<br />

Figura 19: Lattice Conceptual Semántico con Umbral LSA=0.9....................................................................50<br />

Figura 20: Lattice Conceptual Semántico con Umbral LSA=0.8....................................................................51<br />

Figura 21: Lattice Conceptual Semántico con Umbral LSA=0.7....................................................................51<br />

Figura 22: Lattice Conceptual Semántico con Umbral LSA=0.6, 0.5, 0.4, 0.3, 0.2, 0.1, 0.0........................52<br />

Figura 23: Ejemplo Estructura Conceptual sin LSA.........................................................................................54<br />

Figura 24: Estructura Conceptual con LSA......................................................................................................55<br />

Figura 25: Profundidad evaluación <strong>en</strong> reglas <strong>de</strong>scubiertas.............................................................................57<br />

Figura 26: <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong> <strong>de</strong>scubiertas..................................................................................................58<br />

6


Índice <strong>de</strong> Tablas<br />

Tabla 1: Información <strong>de</strong> Dirección y Peso <strong>de</strong> las relaciones usadas <strong>en</strong> WordNet..........................................32<br />

Tabla 2: Ejemplo <strong>de</strong> Features Descubiertos.....................................................................................................36<br />

Tabla 3: Contexto Formal ..................................................................................................................................36<br />

Tabla 4: Conceptos <strong>de</strong>l Lattice Conceptual.....................................................................................................37<br />

Tabla 5: Conjuntos cerrados <strong>de</strong>l ejemplo <strong>de</strong> la tabla 3. ..................................................................................39<br />

Tabla 6: <strong>Reglas</strong> <strong>de</strong> asociación <strong>de</strong>scubiertas ejemplo tabla 2. .........................................................................40<br />

Tabla 7: Algunas etiquetas utilizadas por el Etiquetador POS. .......................................................................48<br />

Tabla 8: Similitud exist<strong>en</strong>te <strong>en</strong>tre palabras <strong>de</strong>l corpus <strong>de</strong> textos ....................................................................50<br />

Tabla 9: Matriz Conformidad Semántica <strong>de</strong>l Mo<strong>de</strong>lo <strong>de</strong> Conocimi<strong>en</strong>to..........................................................53<br />

Tabla 10: Ranking Lattice Conceptual Semántico para valores increm<strong>en</strong>tales Umbral LSA........................56<br />

Tabla 11: Ranking Lattice Conceptual Semántico diversos valores Umbral LSA ..........................................57<br />

Tabla 12: Ranking <strong>de</strong> <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong> según los diversos métodos........................................................59<br />

Tabla 13: Correlación <strong>Evaluación</strong> Expertos versus <strong>Evaluación</strong> Métodos ......................................................60<br />

7


1. Introducción<br />

<strong>Text</strong> <strong>Mining</strong> o Minería <strong>de</strong> <strong>Text</strong>os correspon<strong>de</strong> a una técnica que <strong>de</strong>scubre patrones<br />

interesantes y nuevos conocimi<strong>en</strong>tos <strong>de</strong>ntro <strong>de</strong> colecciones <strong>de</strong> textos escritos <strong>en</strong> l<strong>en</strong>guaje<br />

natural. Los nuevos conocimi<strong>en</strong>tos <strong>de</strong>scubiertos por <strong>Text</strong> <strong>Mining</strong> no exist<strong>en</strong> explícitam<strong>en</strong>te <strong>en</strong><br />

ningún texto específico <strong>de</strong> la colección evaluada, pero ti<strong>en</strong><strong>en</strong> relación con el cont<strong>en</strong>ido <strong>de</strong><br />

varios <strong>de</strong> ellos.<br />

La forma más natural <strong>de</strong> almac<strong>en</strong>ar conocimi<strong>en</strong>to es <strong>en</strong> texto, por lo que se cree que<br />

<strong>Text</strong> <strong>Mining</strong> ti<strong>en</strong>e un pot<strong>en</strong>cial comercial mayor que Data <strong>Mining</strong>. Un estudio indica que el<br />

80% <strong>de</strong> la información <strong>de</strong> una compañía se <strong>en</strong>cu<strong>en</strong>tra <strong>en</strong> docum<strong>en</strong>tos textuales: informes, emails,<br />

reclamos, etc. [37]. Des<strong>de</strong> que Swanson y Smalhaiser [35, 36] <strong>de</strong>scubrieron hipótesis <strong>de</strong><br />

causa efecto <strong>de</strong>sconocidas <strong>en</strong> la literatura médica a partir <strong>de</strong> un corpus <strong>de</strong> textos <strong>de</strong><br />

biomedicina, <strong>Text</strong> <strong>Mining</strong> ha <strong>de</strong>spertado el interés <strong>de</strong> distintos sectores: Académico,<br />

Ci<strong>en</strong>tífico, Empresarial, etc., <strong>de</strong>bido a la gran cantidad <strong>de</strong> docum<strong>en</strong>tos textuales y los<br />

b<strong>en</strong>eficios que se pue<strong>de</strong>n obt<strong>en</strong>er <strong>de</strong> éstos [34].<br />

<strong>Text</strong> <strong>Mining</strong>, también conocido como “<strong>Text</strong> Data <strong>Mining</strong>” es difer<strong>en</strong>te a Data <strong>Mining</strong>,<br />

éste último correspon<strong>de</strong> a la extracción <strong>de</strong> información o patrones interesantes (no trivial,<br />

implícita, previam<strong>en</strong>te <strong>de</strong>sconocidos y pot<strong>en</strong>cialm<strong>en</strong>te útil) <strong>en</strong> gran<strong>de</strong>s bases <strong>de</strong> datos [27]<br />

[17]. En cambio, <strong>Text</strong> <strong>Mining</strong> consiste <strong>en</strong> <strong>de</strong>scubrir patrones inadvertidos <strong>en</strong> bases <strong>de</strong> datos<br />

textuales escritos <strong>en</strong> l<strong>en</strong>guaje natural, por lo tanto la difer<strong>en</strong>cia <strong>de</strong> ambas técnicas radica <strong>en</strong><br />

que <strong>en</strong> Data <strong>Mining</strong> la información <strong>de</strong> <strong>en</strong>trada está estructurada y <strong>en</strong> <strong>Text</strong> <strong>Mining</strong> no está<br />

estructurada.<br />

En Minería <strong>de</strong> <strong>Text</strong>os los patrones <strong>de</strong>scubiertos son inútiles a m<strong>en</strong>os que contribuyan<br />

con conocimi<strong>en</strong>tos valuables a los expertos que toman <strong>de</strong>cisiones estratégicas. Para confrontar<br />

el problema <strong>de</strong> la relevancia <strong>de</strong> los patrones <strong>de</strong>scubiertos nos dirigimos a Descubrimi<strong>en</strong>to <strong>de</strong><br />

Conocimi<strong>en</strong>tos Des<strong>de</strong> <strong>Text</strong>os (Knowledge Discovery from <strong>Text</strong>s o KDT), que es una compleja<br />

actividad que involucra <strong>de</strong>scubrimi<strong>en</strong>to no previam<strong>en</strong>te visto (por medio <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>) y la<br />

evaluación <strong>de</strong> este conocimi<strong>en</strong>to pot<strong>en</strong>cialm<strong>en</strong>te valioso [18].<br />

En la actualidad exist<strong>en</strong> varias técnicas para realizar tareas <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>. Las más<br />

populares incluy<strong>en</strong> estructuras conceptuales, reglas <strong>de</strong> asociación, árboles <strong>de</strong> <strong>de</strong>cisión y<br />

métodos <strong>de</strong> inducción <strong>de</strong> reglas [27] [17]. Todas éstas provi<strong>en</strong><strong>en</strong> <strong>de</strong> “Data <strong>Mining</strong>” (DM) o<br />

Descubrimi<strong>en</strong>to <strong>de</strong> Conocimi<strong>en</strong>to <strong>en</strong> Bases <strong>de</strong> Datos (Knowledge Discovery in Databases o<br />

KDDs). Sin embargo, <strong>de</strong>bido a que éstas fueron diseñadas con el propósito <strong>de</strong> ser aplicadas <strong>en</strong><br />

bases <strong>de</strong> datos estructuradas no pue<strong>de</strong>n aplicarse directam<strong>en</strong>te <strong>en</strong> tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os.<br />

Sin embargo, un problema <strong>en</strong> gran parte <strong>de</strong> estas técnicas inspiradas <strong>de</strong> Data <strong>Mining</strong><br />

consiste <strong>en</strong> que no siempre se <strong>de</strong>scubr<strong>en</strong> patrones que sean interesantes, es <strong>de</strong>cir, que sean <strong>de</strong><br />

utilidad a los expertos humanos que toman las <strong>de</strong>cisiones estratégicas.<br />

8


Los principales <strong>en</strong>foques que buscan dar solución a este problema se divi<strong>de</strong>n <strong>en</strong> dos<br />

grupos: los in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l dominio [6, 7, 20] y los que utilizan fu<strong>en</strong>tes <strong>de</strong> conocimi<strong>en</strong>tos<br />

externas [4].<br />

En esta tesis se aborda el problema <strong>de</strong> evaluar que tan novedoso e interesante es el<br />

conocimi<strong>en</strong>to <strong>de</strong>scubierto por técnicas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os basadas <strong>en</strong> reglas <strong>de</strong> asociación.<br />

Para abordar este problema se <strong>de</strong>sarrollará un nuevo mo<strong>de</strong>lo <strong>de</strong> evaluación que consi<strong>de</strong>re<br />

conocimi<strong>en</strong>to semántico que está implícita <strong>en</strong> las reglas <strong>de</strong> asociación por medio <strong>de</strong> técnicas<br />

basadas <strong>en</strong> Análisis Semántico Lat<strong>en</strong>te [22] combinadas con Estructuras Conceptuales [6, 7,<br />

20], <strong>de</strong> modo <strong>de</strong> producir patrones más relevantes e interesantes al usuario. Las v<strong>en</strong>tajas <strong>de</strong>l<br />

nuevo <strong>en</strong>foque propuesto se manifiestan <strong>en</strong> que el mo<strong>de</strong>lo <strong>de</strong> evaluación es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l<br />

dominio, y pue<strong>de</strong>n ser aplicadas a cualquier <strong>en</strong>foque que utilice reglas <strong>de</strong> asociación <strong>en</strong> la<br />

g<strong>en</strong>eración <strong>de</strong> patrones.<br />

La contribución <strong>de</strong> esta tesis es un nuevo mo<strong>de</strong>lo que combina técnicas <strong>de</strong> análisis<br />

semántico basado <strong>en</strong> corpus y métodos <strong>de</strong> análisis <strong>de</strong> conceptos para evaluar automáticam<strong>en</strong>te<br />

el grado <strong>de</strong> interés <strong>de</strong> patrones g<strong>en</strong>erados por sistema <strong>de</strong> minería <strong>de</strong> textos. Los experim<strong>en</strong>tos<br />

indican que nuestro mo<strong>de</strong>lo obti<strong>en</strong>e mejores resultados <strong>en</strong> la evaluación <strong>de</strong>l grado <strong>de</strong> interés<br />

<strong>de</strong> las reglas <strong>de</strong>scubiertas fr<strong>en</strong>te a un <strong>en</strong>foque tradicional y al mo<strong>de</strong>lo que sólo utiliza<br />

estructuras conceptuales pres<strong>en</strong>tado por Toussaint et al. [6, 7, 20].<br />

Dado que las aplicaciones computacionales que se basan <strong>en</strong> técnicas <strong>de</strong> <strong>Text</strong> <strong>Mining</strong><br />

por lo g<strong>en</strong>eral no son tareas que t<strong>en</strong>gan respuestas automáticas <strong>en</strong> tiempo real fr<strong>en</strong>te a los<br />

patrones <strong>en</strong>contrados, si no más bi<strong>en</strong>, necesitan <strong>de</strong> expertos humanos que analic<strong>en</strong> el<br />

conocimi<strong>en</strong>to <strong>de</strong>scubierto para tomar <strong>de</strong>cisiones. Debido a lo anterior, para los expertos es<br />

importante que las tareas <strong>de</strong> <strong>Text</strong> <strong>Mining</strong> g<strong>en</strong>er<strong>en</strong> reglas <strong>de</strong> asociación interesantes que le<br />

aport<strong>en</strong> nuevos conocimi<strong>en</strong>tos. En el análisis <strong>de</strong> los expertos, lo anterior se pue<strong>de</strong> manifestar<br />

<strong>de</strong> la sigui<strong>en</strong>te forma:<br />

Obt<strong>en</strong>er m<strong>en</strong>os patrones <strong>en</strong> forma <strong>de</strong> reglas <strong>de</strong> asociación que analizar por parte <strong>de</strong><br />

los expertos.<br />

Reducir las chances <strong>de</strong> omitir un patrón interesante por parte <strong>de</strong>l experto al t<strong>en</strong>er<br />

<strong>de</strong>masiadas reglas.<br />

Analizar una cantidad reducida <strong>de</strong> patrones <strong>de</strong>scubiertos por parte <strong>de</strong>l experto, lo<br />

cual permite un análisis más profundo <strong>de</strong>l cont<strong>en</strong>ido y utilidad <strong>de</strong> dichos patrones.<br />

9


1.1 Hipótesis <strong>de</strong> Trabajo<br />

Un método que utilice análisis semántico combinado con métodos <strong>de</strong> análisis<br />

conceptual pue<strong>de</strong> ser más efectivo que los métodos tradicionales para evaluar la calidad <strong>de</strong> los<br />

patrones g<strong>en</strong>erados <strong>en</strong> tareas <strong>de</strong> minado <strong>de</strong> texto.<br />

1.2 Objetivos<br />

Objetivo principal<br />

Desarrollar un mo<strong>de</strong>lo <strong>de</strong> evaluación automática <strong>de</strong> reglas <strong>de</strong> asociación g<strong>en</strong>eradas <strong>en</strong><br />

una tarea <strong>de</strong> <strong>Text</strong> <strong>Mining</strong> utilizando métricas semánticas y estructurales.<br />

Objetivos secundarios<br />

1) Investigar <strong>en</strong>foques reci<strong>en</strong>tes <strong>de</strong> “evaluación <strong>de</strong> patrones” <strong>en</strong> <strong>Text</strong> <strong>Mining</strong>.<br />

2) Desarrollar un mo<strong>de</strong>lo <strong>de</strong> evaluación que utilice Análisis Semántico Lat<strong>en</strong>te con<br />

Estructuras Conceptuales (Lattices) para evaluar la calidad <strong>de</strong> las reglas <strong>de</strong><br />

asociación g<strong>en</strong>eradas <strong>en</strong> un proceso <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>.<br />

3) Evaluar el mo<strong>de</strong>lo comparando sus resultados con otros <strong>en</strong>foques <strong>de</strong> evaluación<br />

<strong>de</strong> patrones.<br />

1.3 Organización <strong>de</strong> la Tesis<br />

La organización <strong>de</strong> la tesis es la sigui<strong>en</strong>te:<br />

En el capítulo 2 se introduc<strong>en</strong> conceptos fundam<strong>en</strong>tales <strong>de</strong> minería <strong>de</strong> textos y<br />

evaluación <strong>de</strong> patrones. En el capítulo 3 se discut<strong>en</strong> diversos <strong>en</strong>foques para la evaluación<br />

automática <strong>de</strong> patrones. El capítulo 4 pres<strong>en</strong>ta un nuevo mo<strong>de</strong>lo multi-estrategia junto con sus<br />

compon<strong>en</strong>tes para la evaluación automática <strong>de</strong> reglas <strong>de</strong> asociaciones g<strong>en</strong>eradas a partir <strong>de</strong> un<br />

sistema simple <strong>de</strong> minado <strong>de</strong> textos. En el capítulo 5, se <strong>de</strong>scrib<strong>en</strong> los difer<strong>en</strong>tes experim<strong>en</strong>tos<br />

y resultados obt<strong>en</strong>idos con nuestro <strong>en</strong>foque. Finalm<strong>en</strong>te, el capítulo 6 <strong>de</strong>staca las principales<br />

conclusiones y trabajo futuro <strong>de</strong> esta tesis.<br />

10


2. Fundam<strong>en</strong>tos Teóricos<br />

2.1 <strong>Text</strong> <strong>Mining</strong><br />

<strong>Text</strong> <strong>Mining</strong>, también conocido como “<strong>Text</strong> Data <strong>Mining</strong>” pue<strong>de</strong> ser visto como la<br />

tarea <strong>de</strong> <strong>de</strong>scubrir patrones <strong>de</strong>sconocidos <strong>en</strong> bases <strong>de</strong> datos textuales escritos <strong>en</strong> l<strong>en</strong>guaje<br />

natural [17].<br />

Las tareas <strong>de</strong> <strong>Text</strong> <strong>Mining</strong> <strong>en</strong> su proceso <strong>de</strong> minado buscan <strong>de</strong>scubrir conocimi<strong>en</strong>to que<br />

no sea conocido por los expertos humanos, es <strong>de</strong>cir, la información o patrones <strong>de</strong>scubiertos<br />

<strong>de</strong>b<strong>en</strong> ser <strong>de</strong> utilidad <strong>en</strong> la toma <strong>de</strong> <strong>de</strong>cisiones. Sin embargo, para lograr esto los métodos <strong>de</strong><br />

Minería <strong>de</strong> <strong>Text</strong>os <strong>de</strong>b<strong>en</strong> tratar con textos escritos <strong>en</strong> l<strong>en</strong>guaje natural que <strong>de</strong> por sí son muy<br />

ambiguos y pose<strong>en</strong> información <strong>de</strong> manera implícita.<br />

Minería <strong>de</strong> <strong>Text</strong>os es parte <strong>de</strong>l proceso <strong>de</strong> Descubrimi<strong>en</strong>to <strong>de</strong> Conocimi<strong>en</strong>to <strong>de</strong>s<strong>de</strong><br />

<strong>Text</strong>os que es interactivo, iterativo e increm<strong>en</strong>tal, tal como se muestra <strong>en</strong> la figura 1. Aquí se<br />

distingu<strong>en</strong> 3 etapas principales: preparación <strong>de</strong> la información <strong>en</strong> los textos, aplicación <strong>de</strong><br />

métodos prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong> Data <strong>Mining</strong> <strong>en</strong> Bases <strong>de</strong> Datos <strong>Text</strong>uales e interpretación <strong>de</strong>l<br />

conocimi<strong>en</strong>to <strong>de</strong>scubierto [7].<br />

Figura 1: Descubrimi<strong>en</strong>to <strong>de</strong> Conocimi<strong>en</strong>tos <strong>de</strong>s<strong>de</strong> <strong>Text</strong>os.<br />

11


Las etapas <strong>de</strong>l proceso <strong>de</strong> Descubrimi<strong>en</strong>to <strong>de</strong> Conocimi<strong>en</strong>tos <strong>de</strong>s<strong>de</strong> <strong>Text</strong>os son los<br />

sigui<strong>en</strong>tes:<br />

Preparación <strong>de</strong> los <strong>Text</strong>os<br />

Esta correspon<strong>de</strong> a la primera etapa <strong>de</strong>l proceso <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os, la cual ti<strong>en</strong>e<br />

como objetivo dar una estructura a los docum<strong>en</strong>tos que se <strong>en</strong>cu<strong>en</strong>tran escritos <strong>en</strong> l<strong>en</strong>guaje<br />

natural para así po<strong>de</strong>r aplicar técnicas prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong> Data <strong>Mining</strong>.<br />

En esta etapa se distingu<strong>en</strong> tres procesos principales: Selección, Preprocesami<strong>en</strong>to y<br />

Repres<strong>en</strong>tación.<br />

a) Selección<br />

Esta etapa <strong>de</strong>l proceso <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os comi<strong>en</strong>za con la selección <strong>de</strong> los textos<br />

escritos <strong>en</strong> l<strong>en</strong>guaje natural <strong>de</strong> los cuales se espera <strong>de</strong>scubrir nuevos conocimi<strong>en</strong>tos. Al<br />

conjunto <strong>de</strong> textos seleccionados se les <strong>de</strong>nomina Corpus <strong>de</strong> <strong>Text</strong>os.<br />

b) Preprocesami<strong>en</strong>to<br />

En el Corpus <strong>de</strong> <strong>Text</strong>os se aplican herrami<strong>en</strong>tas <strong>de</strong> Procesami<strong>en</strong>to L<strong>en</strong>guaje Natural<br />

(Natural Language Processing o NLP) que permit<strong>en</strong> mejorar la calidad <strong>de</strong>l proceso <strong>de</strong> <strong>Text</strong><br />

<strong>Mining</strong>. Entre estas herrami<strong>en</strong>tas <strong>de</strong> NLP <strong>de</strong>stacan métodos <strong>de</strong> análisis morfológico y métodos<br />

<strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> frases.<br />

Word Stemming o Lematización es un método <strong>de</strong> análisis morfológico que se utiliza<br />

para obt<strong>en</strong>er o i<strong>de</strong>ntificar el tronco o raíz <strong>de</strong> una palabra. Por ejemplo, la palabra “autos”<br />

correspon<strong>de</strong> al plural <strong>de</strong> la palabra “auto”, y a su vez, “autito” es un diminutivo <strong>de</strong> la palabra<br />

“auto”, ambas variantes morfológicas <strong>de</strong> la palabra “auto” ti<strong>en</strong><strong>en</strong> interpretaciones semánticas<br />

similares y se pue<strong>de</strong>n consi<strong>de</strong>rar como equival<strong>en</strong>tes <strong>en</strong> el uso <strong>de</strong> herrami<strong>en</strong>tas <strong>de</strong> Minería <strong>de</strong><br />

<strong>Text</strong>os. Para efectos <strong>de</strong> cómputo, los algoritmos <strong>de</strong> stemming evitan que palabras con<br />

variantes morfológicas se consi<strong>de</strong>r<strong>en</strong> como palabras difer<strong>en</strong>tes.<br />

Entre los algoritmos más populares <strong>de</strong> Stemming <strong>de</strong>stacan los <strong>de</strong> Porter [32], Lovins<br />

[24], y Paice/Hust [28]. En todos ellos, el procedimi<strong>en</strong>to para <strong>de</strong>terminar la raíz <strong>de</strong> una<br />

palabra es similar, y consiste <strong>en</strong> aplicar reglas <strong>de</strong> transformación <strong>de</strong> manera iterativa<br />

com<strong>en</strong>zando por el final <strong>de</strong> la palabra hasta llegar al principio <strong>de</strong> ella, removi<strong>en</strong>do <strong>en</strong> cada<br />

iteración un sufijo a la vez. La difer<strong>en</strong>cia <strong>de</strong> estos algoritmos radica <strong>en</strong> la forma <strong>de</strong> aplicar las<br />

reglas <strong>de</strong> transformación, específicam<strong>en</strong>te si son s<strong>en</strong>sibles o no al contexto. Los algoritmos<br />

s<strong>en</strong>sibles al contexto utilizan información <strong>de</strong>l contexto para <strong>de</strong>finir restricciones que<br />

prev<strong>en</strong>gan remover falsos sufijos que, <strong>en</strong> ciertas ocasiones, produc<strong>en</strong> errores <strong>en</strong> el proceso <strong>de</strong><br />

Stemming. Entre estos se <strong>en</strong>cu<strong>en</strong>tran los algoritmos <strong>de</strong> Porter, Lovins. En cambio, los<br />

algoritmos libres <strong>de</strong>l contexto no se val<strong>en</strong> <strong>de</strong> información <strong>de</strong>l contexto al aplicar sus reglas <strong>de</strong><br />

eliminación <strong>de</strong> sufijos 1 .<br />

1 http://www.comp.lancs.ac.uk/computing/research/stemming/in<strong>de</strong>x.htm.<br />

12


D<strong>en</strong>tro <strong>de</strong> los métodos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> frases exist<strong>en</strong> herrami<strong>en</strong>tas capaces <strong>de</strong><br />

etiquetar cada palabra pres<strong>en</strong>te <strong>en</strong> un texto <strong>de</strong> acuerdo al rol que juegan <strong>en</strong> una oración, es<br />

<strong>de</strong>cir, si la palabra correspon<strong>de</strong> a un nombre, verbo, sustantivo, artículo, adjetivo, adverbio,<br />

etc. Estas características se <strong>de</strong>nominan Partes <strong>de</strong>l Habla y las herrami<strong>en</strong>tas que permit<strong>en</strong><br />

pre<strong>de</strong>cir estas etiquetas o categorías se <strong>de</strong>nominan Etiquetadores POS (Part-Of-Speech) [15].<br />

Por ejemplo el sigui<strong>en</strong>te texto “La manzana es pequeña” quedaría etiquetada <strong>de</strong> la sigui<strong>en</strong>te<br />

manera:<br />

“La/artículo manzana/nombre es/verbo pequeña/adjetivo”.<br />

El proceso <strong>de</strong> etiquetaje se pue<strong>de</strong> realizar por medio <strong>de</strong> dos métodos:<br />

1) Etiquetaje Basado <strong>en</strong> <strong>Reglas</strong>: <strong>en</strong> este método se utiliza información contextual <strong>de</strong>l texto<br />

para asignar una etiqueta específica a una palabra <strong>de</strong>sconocida. Por ejemplo, <strong>en</strong> el idioma<br />

español si una palabra <strong>de</strong>sconocida X es precedida por un <strong>de</strong>terminante y seguida <strong>de</strong> un<br />

sustantivo, <strong>en</strong>tonces X se etiqueta como adjetivo.<br />

Varios <strong>de</strong> los etiquetadores automáticos (taggers) que exist<strong>en</strong> <strong>en</strong> la actualidad utilizan<br />

información morfológica para ayudar al proceso <strong>de</strong> etiquetación. Sin embargo, la utilidad que<br />

<strong>en</strong>trega esta información adicional <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l idioma <strong>en</strong> el que se utilice. Por ejemplo, <strong>en</strong> el<br />

idioma Inglés, una regla podría etiquetar como verbo a una palabra <strong>de</strong>sconocida si termina <strong>en</strong><br />

“ing” y es precedida por un verbo, <strong>en</strong> cambio <strong>en</strong> Alemán, una regla podría i<strong>de</strong>ntificar como<br />

nombre a aquellas palabras <strong>de</strong>sconocidas que comi<strong>en</strong>c<strong>en</strong> con letra capital.<br />

2) Etiquetaje Estocástico: Cualquier <strong>en</strong>foque <strong>de</strong> etiquetaje predictivo que incluya <strong>en</strong> su<br />

proceso cálculos <strong>de</strong> frecu<strong>en</strong>cia o probabilida<strong>de</strong>s podría <strong>de</strong>nominarse estocástico.<br />

Los métodos estocásticos más simples <strong>de</strong> etiquetado marcan una palabra basándose<br />

solam<strong>en</strong>te <strong>en</strong> la probabilidad <strong>de</strong> que ocurra con una etiqueta <strong>en</strong> particular. Es <strong>de</strong>cir, el<br />

etiquetador <strong>en</strong>cu<strong>en</strong>tra la palabra más frecu<strong>en</strong>te <strong>en</strong> el conjunto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y se la asigna<br />

a la instancia <strong>de</strong> la palabra. El problema con este <strong>en</strong>foque consiste <strong>en</strong> que podría producir<br />

secu<strong>en</strong>cias erróneas <strong>de</strong> etiquetajes, con lo cual disminuye la correctitud <strong>de</strong>l método.<br />

Otro <strong>en</strong>foque que es ampliam<strong>en</strong>te utilizado correspon<strong>de</strong> a los Mo<strong>de</strong>los <strong>de</strong> L<strong>en</strong>guaje<br />

“n-gram”, <strong>en</strong> el cual se calcula la probabilidad <strong>de</strong> que ocurra una secu<strong>en</strong>cia dada <strong>de</strong> etiquetas.<br />

En este <strong>en</strong>foque la mejor etiqueta para una palabra dada está <strong>de</strong>terminada por la probabilidad<br />

<strong>de</strong> que ocurra con las “n” etiquetas anteriores. Entre los algoritmos para implem<strong>en</strong>tar este<br />

<strong>en</strong>foque <strong>de</strong>staca Viterbi [15].<br />

Aunque los etiquetadores POS <strong>de</strong>l tipo estocástico ti<strong>en</strong><strong>en</strong> altos niveles <strong>de</strong> r<strong>en</strong>dimi<strong>en</strong>to<br />

(sobre 95%) son muy s<strong>en</strong>sibles al vocabulario y sintaxis utilizadas <strong>en</strong> el texto. Como<br />

consecu<strong>en</strong>cia, si los textos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to difier<strong>en</strong> mucho con los <strong>de</strong> <strong>de</strong>scubrimi<strong>en</strong>to, el<br />

nivel <strong>de</strong> r<strong>en</strong>dimi<strong>en</strong>to pue<strong>de</strong> <strong>de</strong>caer [7].<br />

13


c) Repres<strong>en</strong>tación <strong>de</strong> los <strong>Text</strong>os<br />

Una vez que se han aplicados las herrami<strong>en</strong>tas <strong>de</strong> NLP, se escoge la repres<strong>en</strong>tación <strong>de</strong><br />

los textos, la cual podría ser por medio <strong>de</strong> palabras, keyterms, features, conceptos, etc. Esta<br />

repres<strong>en</strong>tación <strong>de</strong>be ser fácil <strong>de</strong> manejar <strong>en</strong> las tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os y <strong>de</strong>be ser lo más<br />

informativa posible, es <strong>de</strong>cir, <strong>de</strong>be capturar los aspectos o características <strong>de</strong>l espacio <strong>de</strong>l<br />

problema. Enfoques <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os que escog<strong>en</strong> repres<strong>en</strong>taciones informativas son más<br />

fáciles <strong>de</strong> <strong>en</strong>t<strong>en</strong><strong>de</strong>r <strong>en</strong> la etapa <strong>de</strong> interpretación que aquellos que ocupan repres<strong>en</strong>taciones no<br />

informativas.<br />

El <strong>en</strong>foque más s<strong>en</strong>cillo <strong>de</strong> repres<strong>en</strong>tación <strong>de</strong> textos se <strong>de</strong>nomina Bolsa <strong>de</strong> Palabras<br />

(Bag of Words), <strong>en</strong> el cual, la bolsa esta compuesta por las palabras que se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> los<br />

docum<strong>en</strong>tos. En este <strong>en</strong>foque se ignora el or<strong>de</strong>n <strong>de</strong> las palabras. En [5] se pres<strong>en</strong>ta un<br />

<strong>en</strong>foque, que a difer<strong>en</strong>cia <strong>de</strong>l Bag of Words, consi<strong>de</strong>ra cierta semántica para seleccionar los<br />

features que repres<strong>en</strong>tan al corpus <strong>de</strong> textos, específicam<strong>en</strong>te se utilizan features que<br />

repres<strong>en</strong>tan conceptos médicos.<br />

En la mayoría <strong>de</strong> los <strong>en</strong>foques <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os es común eliminar <strong>de</strong>l corpus <strong>de</strong><br />

textos palabras que no aportan conocimi<strong>en</strong>to alguno, es <strong>de</strong>cir, palabras <strong>de</strong> función o que<br />

ocurr<strong>en</strong> muy frecu<strong>en</strong>tem<strong>en</strong>te, tales como: “el”, “la”, “ellos”, “nosotros”, “<strong>de</strong>”, etc. Estas<br />

palabras eliminadas recib<strong>en</strong> el nombre <strong>de</strong> “Stopwords” y por medio <strong>de</strong> su eliminación se<br />

reduce el tamaño <strong>de</strong> la repres<strong>en</strong>tación <strong>de</strong>l texto, mejorando así la efectividad <strong>de</strong> las distintas<br />

técnicas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os.<br />

Una vez que se ha preprocesado el corpus <strong>de</strong> textos, los textos pose<strong>en</strong> una<br />

repres<strong>en</strong>tación más estructurada que <strong>en</strong> su forma original. Esta estructuración <strong>de</strong> los textos<br />

permite aplicar métodos prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong>s<strong>de</strong> Data <strong>Mining</strong>. Entre los métodos más populares<br />

<strong>de</strong>stacan: clustering, clasificación y predicción, reglas <strong>de</strong> asociación, y minado <strong>de</strong> tipos <strong>de</strong><br />

datos complejos [17]. Estos métodos se pue<strong>de</strong>n aplicar <strong>en</strong> tareas <strong>de</strong> <strong>Text</strong> <strong>Mining</strong> para<br />

<strong>de</strong>scubrir conocimi<strong>en</strong>to <strong>en</strong> los textos.<br />

Entre las principales tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os, <strong>de</strong>stacan: <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong><br />

estructuras <strong>en</strong> los textos utilizando clustering y clasificación; <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> patrones<br />

don<strong>de</strong> se utiliza el método <strong>de</strong> reglas <strong>de</strong> asociación. En las sigui<strong>en</strong>tes secciones se pres<strong>en</strong>tan<br />

estos métodos ampliam<strong>en</strong>te utilizados <strong>en</strong> <strong>en</strong>foques <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>.<br />

14


Clustering<br />

Este método divi<strong>de</strong> un conjunto <strong>de</strong> datos <strong>en</strong> subconjuntos con características similares.<br />

La es<strong>en</strong>cia <strong>de</strong>l clustering es que los objetos <strong>de</strong>ntro <strong>de</strong> un cluster o subconjunto sean lo más<br />

similares posibles <strong>en</strong>tre sí, y muy disimilares con los elem<strong>en</strong>tos <strong>de</strong> otros clusters. Para medir<br />

la similaridad <strong>en</strong>tre objetos <strong>de</strong>ntro <strong>de</strong> un cluster se suel<strong>en</strong> utilizar difer<strong>en</strong>tes formas <strong>de</strong><br />

distancia, tales como: Euclidiana, Euclidiana Cuadrática, Minkowsky, Chebychev,<br />

Mahalanobis, Manhatan, Correlación <strong>de</strong> Pearson, y Correlación <strong>de</strong> Spearman, [1, 9, 17]. En<br />

Clustering <strong>de</strong> docum<strong>en</strong>tos, los docum<strong>en</strong>tos g<strong>en</strong>eralm<strong>en</strong>te son repres<strong>en</strong>tados como vectores con<br />

una dim<strong>en</strong>sión igual a la cantidad <strong>de</strong> palabras (términos) que aparec<strong>en</strong> <strong>en</strong> el corpus <strong>de</strong> textos.<br />

Cada compon<strong>en</strong>te <strong>de</strong>l vector refleja la ocurr<strong>en</strong>cia <strong>de</strong> la correspondi<strong>en</strong>te palabra <strong>en</strong> el<br />

docum<strong>en</strong>to. Una medida <strong>de</strong> similaridad ampliam<strong>en</strong>te utilizada <strong>en</strong> esta repres<strong>en</strong>tación<br />

correspon<strong>de</strong> a la medida <strong>de</strong> cos<strong>en</strong>o, que mi<strong>de</strong> el ángulo que forman dos vectores. Otras<br />

medidas incluy<strong>en</strong> los coefici<strong>en</strong>tes <strong>de</strong> Dice y Jaccard [40].<br />

Para medir la similaridad <strong>en</strong>tre clústeres se utilizan métricas que mi<strong>de</strong>n la distancia <strong>de</strong>l<br />

<strong>en</strong>ca<strong>de</strong>nami<strong>en</strong>to (linkage) <strong>de</strong> los clústeres, <strong>en</strong>tre éstas <strong>de</strong>stacan: <strong>en</strong>ca<strong>de</strong>nami<strong>en</strong>to promedio,<br />

<strong>en</strong>ca<strong>de</strong>nami<strong>en</strong>to individual, <strong>en</strong>ca<strong>de</strong>nami<strong>en</strong>to completo 2 . Por otro lado, la calidad <strong>de</strong> un<br />

método <strong>de</strong> clustering es alta cuando la similaridad <strong>de</strong>ntro <strong>de</strong> un cluster es alta y la<br />

disimilaridad <strong>en</strong>tre clusters también es alta.<br />

Entre los b<strong>en</strong>eficios que se obti<strong>en</strong><strong>en</strong> al utilizar técnicas <strong>de</strong> clustering, <strong>de</strong>staca una<br />

simplificación <strong>en</strong> la interpretación <strong>de</strong> la gran cantidad <strong>de</strong> datos exist<strong>en</strong>te <strong>en</strong> las bases <strong>de</strong> datos<br />

o corpus <strong>de</strong> textos. Sin embargo, dado que el método divi<strong>de</strong> los datos <strong>en</strong> clusters<br />

necesariam<strong>en</strong>te se pier<strong>de</strong>n <strong>de</strong>talles <strong>de</strong> la información <strong>de</strong>bido a la agrupación <strong>de</strong> elem<strong>en</strong>tos con<br />

características similares.<br />

Existe una gran variedad <strong>de</strong> algoritmos <strong>de</strong> clustering, por lo que resulta difícil<br />

clasificarlos <strong>de</strong>bido a que g<strong>en</strong>eralm<strong>en</strong>te se sobrepon<strong>en</strong> <strong>en</strong> las distintas clasificaciones<br />

propuestas [17]. G<strong>en</strong>eralm<strong>en</strong>te, los <strong>en</strong>foques <strong>de</strong> clustering se clasifican <strong>en</strong>: algoritmos <strong>de</strong><br />

particionami<strong>en</strong>to, jerárquicos, basados <strong>en</strong> <strong>de</strong>nsidad, basados <strong>en</strong> mallas, y basados <strong>en</strong> mo<strong>de</strong>los<br />

[17]. En minería <strong>de</strong> textos, <strong>de</strong>stacan los <strong>en</strong>foques <strong>de</strong> clustering jerárquico y <strong>de</strong><br />

particionami<strong>en</strong>to.<br />

2 http://www.improvedoutcomes.com/docs/WebSiteDocs/Clustering/Clustering_Overview.htm.<br />

15


Clasificación y Predicción<br />

Clasificación y predicción repres<strong>en</strong>tan dos formas <strong>de</strong> análisis <strong>de</strong> datos. La primera se<br />

utiliza para extraer mo<strong>de</strong>los que <strong>de</strong>scrib<strong>en</strong> relaciones <strong>en</strong>tre los datos, y la segunda para<br />

pre<strong>de</strong>cir la t<strong>en</strong><strong>de</strong>ncia futura <strong>de</strong> éstos. Por ejemplo, un mo<strong>de</strong>lo <strong>de</strong> clasificación se podría<br />

utilizar <strong>en</strong> un banco para categorizar los créditos <strong>en</strong> justos o excel<strong>en</strong>tes, <strong>en</strong> cambio, un mo<strong>de</strong>lo<br />

<strong>de</strong> predicción podría pre<strong>de</strong>cir los gastos <strong>de</strong> pot<strong>en</strong>ciales cli<strong>en</strong>tes <strong>en</strong> equipami<strong>en</strong>tos<br />

computacionales dados sus ingresos y ocupación. El método <strong>de</strong> clasificación y predicción, a<br />

difer<strong>en</strong>cia <strong>de</strong>l Clustering, es un método <strong>de</strong> apr<strong>en</strong>dizaje supervisado, ya que los datos <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>b<strong>en</strong> estar acompañados por rótulos que indican la clase <strong>de</strong> las observaciones,<br />

a<strong>de</strong>más los datos nuevos se clasifican basados <strong>en</strong> el set <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Este método se compone <strong>de</strong> dos etapas: primero, se realiza la construcción <strong>de</strong>l mo<strong>de</strong>lo<br />

<strong>de</strong> clasificación, el cual <strong>de</strong>scribe un conjunto <strong>de</strong> clases pre<strong>de</strong>terminadas (ver figura 2). Este<br />

mo<strong>de</strong>lo se g<strong>en</strong>era por medio <strong>de</strong> reglas <strong>de</strong> clasificación, árboles <strong>de</strong> <strong>de</strong>cisión, etc. En el segundo<br />

paso (ver figura 3) se utiliza el mo<strong>de</strong>lo <strong>de</strong> clasificación para clasificar objetos <strong>de</strong>sconocidos o<br />

futuros. En esta etapa para estimar la precisión <strong>de</strong>l mo<strong>de</strong>lo se compara el rótulo <strong>de</strong>sconocido<br />

<strong>de</strong> las muestras <strong>de</strong> prueba con el resultado clasificado por el mo<strong>de</strong>lo. La tasa <strong>de</strong> precisión <strong>de</strong>l<br />

mo<strong>de</strong>lo es la proporción <strong>de</strong> las muestras <strong>de</strong> prueba que fueron correctam<strong>en</strong>te clasificadas por<br />

el mo<strong>de</strong>lo. Aquí, el set <strong>de</strong> prueba es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l set <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para evitar<br />

problemas <strong>de</strong> over-fitting, es <strong>de</strong>cir, evitar errores <strong>en</strong> la clasificación por causas <strong>de</strong>l set <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to [17].<br />

Figura 2: Proceso <strong>de</strong> Clasificación: etapa <strong>de</strong> apr<strong>en</strong>dizaje.<br />

16


<strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong><br />

Figura 3: Proceso <strong>de</strong> Clasificación: etapa <strong>de</strong> Clasificación.<br />

La g<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong> asociación permite <strong>en</strong>contrar relaciones <strong>de</strong> asociación o<br />

correlación <strong>en</strong>tre un conjunto ext<strong>en</strong>so <strong>de</strong> datos. En tareas <strong>de</strong> Data <strong>Mining</strong> estos datos se<br />

<strong>en</strong>cu<strong>en</strong>tran almac<strong>en</strong>ados g<strong>en</strong>eralm<strong>en</strong>te <strong>en</strong> bases <strong>de</strong> datos, <strong>en</strong> cambio <strong>en</strong> <strong>Text</strong> <strong>Mining</strong> se<br />

<strong>en</strong>cu<strong>en</strong>tran escritos <strong>en</strong> l<strong>en</strong>guaje natural <strong>en</strong> bases <strong>de</strong> datos textuales. Originalm<strong>en</strong>te, las reglas<br />

<strong>de</strong> asociación nac<strong>en</strong> <strong>de</strong> una necesidad <strong>de</strong> muchas industrias <strong>de</strong> <strong>en</strong>contrar relaciones <strong>en</strong>tre los<br />

registros o transacciones almac<strong>en</strong>ados <strong>en</strong> sus bases <strong>de</strong> datos [17].<br />

Un ejemplo clásico <strong>de</strong> aplicación <strong>de</strong>l método <strong>de</strong> reglas <strong>de</strong> asociación correspon<strong>de</strong> al<br />

análisis <strong>de</strong> compras <strong>en</strong> un supermercado o “Market Basket”. En éste, se analizan los hábitos <strong>de</strong><br />

los cli<strong>en</strong>tes <strong>en</strong>contrando relaciones <strong>en</strong>tre los distintos productos o “ítems” que colocan <strong>en</strong> la<br />

canasta <strong>de</strong> compras. Si luego <strong>de</strong> realizar el proceso <strong>de</strong> minado <strong>de</strong> reglas <strong>de</strong> asociación <strong>en</strong> todas<br />

las v<strong>en</strong>tas <strong>de</strong>l supermercado, se <strong>en</strong>contrara la sigui<strong>en</strong>te relación: “los cli<strong>en</strong>tes que compran<br />

leche también compran pan”. Esta relación pue<strong>de</strong> ayudar a los v<strong>en</strong><strong>de</strong>dores a diseñar alguna<br />

estrategia <strong>de</strong> marketing que aum<strong>en</strong>te sus v<strong>en</strong>tas, por ejemplo, ubicar físicam<strong>en</strong>te cerca los<br />

productos “leche” y “pan”, <strong>de</strong> forma tal que el cli<strong>en</strong>te vea ambos productos.<br />

El minado <strong>de</strong> reglas <strong>de</strong> asociación fue propuesto por Agrawal, Imielinski y Swami [2].<br />

Esta técnica fue <strong>de</strong>sarrollada específicam<strong>en</strong>te para tareas <strong>de</strong> Data <strong>Mining</strong>, <strong>en</strong> la cual se int<strong>en</strong>ta<br />

<strong>en</strong>contrar patrones <strong>en</strong> forma <strong>de</strong> “reglas” <strong>de</strong>l tipo IF-THEN <strong>en</strong> un conjunto <strong>de</strong> ítems frecu<strong>en</strong>tes.<br />

Específicam<strong>en</strong>te, dado un conjunto <strong>de</strong> transacciones, una regla <strong>de</strong> asociación es una expresión<br />

X Y o IF X THEN Y, don<strong>de</strong> X e Y son conjuntos <strong>de</strong> ítems (itemsets) [33]. Por ejemplo, <strong>en</strong><br />

el contexto <strong>de</strong> informes <strong>de</strong> v<strong>en</strong>ta <strong>en</strong> un supermercado, una regla <strong>de</strong>l tipo<br />

“Cerveza Pañales” podría interpretarse como “las personas que compraron cervezas<br />

también compraron pañales”.<br />

Las reglas <strong>de</strong> asociación <strong>de</strong>l tipo Y<br />

X ti<strong>en</strong><strong>en</strong> ciertos criterios “tradicionales” <strong>de</strong><br />

medición que son utilizados para evaluar y así reducir la cantidad <strong>de</strong> reglas <strong>de</strong>scubiertas y para<br />

establecer ciertos niveles <strong>de</strong> relevancia [26].<br />

17


1. Support: correspon<strong>de</strong> a la proporción <strong>de</strong> transacciones que conti<strong>en</strong><strong>en</strong> tanto a X<br />

como a Y, y se pue<strong>de</strong> consi<strong>de</strong>rar como la probabilidad conjunta <strong>de</strong> X e Y, o sea<br />

P( X Y)<br />

. Una regla con support S se interpreta como una regla que se cumple <strong>en</strong><br />

S% <strong>de</strong> las transacciones<br />

2. Confi<strong>de</strong>nce: correspon<strong>de</strong> a la probabilidad que Y aparezca <strong>en</strong> una transacción dado<br />

que X ya ocurrió, y se pue<strong>de</strong> consi<strong>de</strong>rar como la probabilidad condicional <strong>de</strong> Y<br />

dado X, o sea P(Y|X). Una regla con confi<strong>de</strong>nce C se interpreta como: si X ocurrió,<br />

<strong>en</strong>tonces también estará Y <strong>en</strong> un C% <strong>de</strong> los casos.<br />

Esta técnica no se pue<strong>de</strong> aplicar <strong>en</strong> forma directa <strong>en</strong> tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os.<br />

Algunas modificaciones a éste método consi<strong>de</strong>ran las sigui<strong>en</strong>tes: dado un conjunto <strong>de</strong> m textos<br />

T = {t1, t2,..., tm} y un conjunto <strong>de</strong> n términos claves K = {k1, k2,..., kn} asociados a los textos,<br />

una regla <strong>de</strong> asociación se <strong>de</strong>fine como X Y , don<strong>de</strong> X e Y son conjuntos <strong>de</strong> términos claves<br />

[29]. De acuerdo a estas consi<strong>de</strong>raciones, las medidas <strong>de</strong> evaluación quedan <strong>de</strong>finidas <strong>de</strong> la<br />

sigui<strong>en</strong>te manera:<br />

1. Support: correspon<strong>de</strong> al número <strong>de</strong> docum<strong>en</strong>tos que conti<strong>en</strong><strong>en</strong> ambos términos<br />

claves X e Y, y se pue<strong>de</strong> consi<strong>de</strong>rar como la probabilidad conjunta <strong>de</strong> X e Y, o sea<br />

P( X Y)<br />

.<br />

2. Confi<strong>de</strong>nce: correspon<strong>de</strong> a la probabilidad que el término Y aparezca <strong>en</strong> el texto<br />

dado que X ya apareció. También se pue<strong>de</strong> consi<strong>de</strong>rar como la probabilidad<br />

condicional <strong>de</strong> Y dado X, o sea P (Y|X).<br />

En el proceso <strong>de</strong> extracción <strong>de</strong> reglas <strong>de</strong> asociación se <strong>de</strong>fin<strong>en</strong> experim<strong>en</strong>talm<strong>en</strong>te los<br />

umbrales mínimos <strong>de</strong> support (minsupport) y confi<strong>de</strong>nce (minconfi<strong>de</strong>nce) que permit<strong>en</strong> el<br />

filtrado <strong>de</strong> reglas <strong>de</strong> asociación. Con estos umbrales <strong>de</strong>finidos, el proceso se lleva a cabo<br />

mediante dos pasos:<br />

1. Búsqueda <strong>de</strong> todos los itemsets frecu<strong>en</strong>tes: un itemset frecu<strong>en</strong>te correspon<strong>de</strong> a<br />

itemset que ocurre al m<strong>en</strong>os tan frecu<strong>en</strong>tem<strong>en</strong>te como el mínimo support<br />

(minsupport) establecido.<br />

2. G<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong> asociación a partir <strong>de</strong> los itemsets frecu<strong>en</strong>tes: las reglas<br />

g<strong>en</strong>eradas <strong>de</strong>b<strong>en</strong> satisfacer los umbrales mínimos <strong>de</strong> support (minsupport) y<br />

confi<strong>de</strong>nce (minconfi<strong>de</strong>nce).<br />

El costo computacional <strong>de</strong>l <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> reglas <strong>de</strong> asociación <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> los<br />

itemsets frecu<strong>en</strong>tes que se <strong>en</strong>cu<strong>en</strong>tr<strong>en</strong>. Este costo es expon<strong>en</strong>cial, ya que el número <strong>de</strong><br />

posibles itemsets frecu<strong>en</strong>tes crece <strong>de</strong> manera expon<strong>en</strong>cial con respecto al tamaño <strong>de</strong>l conjunto<br />

<strong>de</strong> ítems <strong>de</strong> la base <strong>de</strong> datos, es <strong>de</strong>cir, si el número <strong>de</strong> ítems es m, exist<strong>en</strong> 2 m posibles itemsets<br />

frecu<strong>en</strong>tes.<br />

18


Las reglas <strong>de</strong> asociación se clasifican <strong>en</strong> base a cuatro criterios:<br />

1) Tipo <strong>de</strong> valor manejado <strong>en</strong> la regla: las asociaciones pue<strong>de</strong>n clasificarse <strong>en</strong> Boolean o<br />

Cuantitativas. Una asociación <strong>de</strong>l tipo Boolean muestra relaciones <strong>en</strong>tre objetos discretos, es<br />

<strong>de</strong>cir, a través <strong>de</strong> la pres<strong>en</strong>cia o aus<strong>en</strong>cia <strong>de</strong> datos <strong>en</strong> una regla. La sigui<strong>en</strong>te regla correspon<strong>de</strong><br />

a un ejemplo <strong>de</strong> este tipo:<br />

Computador Software<br />

En cambio, una asociación cuantitativa correspon<strong>de</strong> a una asociación<br />

multidim<strong>en</strong>sional que involucra atributos numéricos que son discretizados dinámicam<strong>en</strong>te,<br />

como también podría incluir atributos categóricos. Un ejemplo <strong>de</strong> estas reglas es la sigui<strong>en</strong>te:<br />

Edad (X, “30…39”), Ingresos (X, “500.000…1.000.000”) Compra (X, “Notebook”)<br />

2) Dim<strong>en</strong>siones <strong>de</strong> los datos <strong>en</strong> la regla: las asociaciones se pue<strong>de</strong>n clasificar <strong>en</strong> reglas <strong>de</strong><br />

“una dim<strong>en</strong>sión” o “multidim<strong>en</strong>sionales”. Asociaciones <strong>de</strong> una sola dim<strong>en</strong>sión son aquellas<br />

<strong>en</strong> que está involucrado un sólo predicado o dim<strong>en</strong>sión, como es el caso <strong>de</strong> la sigui<strong>en</strong>te regla<br />

don<strong>de</strong> la única dim<strong>en</strong>sión es la acción <strong>de</strong> comprar un producto:<br />

Comprar (X, “computador”) Comprar (X, “Software”)<br />

Asociaciones Multidim<strong>en</strong>sionales son aquellas <strong>en</strong> que existe más <strong>de</strong> una dim<strong>en</strong>sión,<br />

como es el caso <strong>de</strong> la sigui<strong>en</strong>te regla:<br />

Edad (X, “30…39”), Ingresos (X, “500.000…1.000.000”) Comprar(X, “Notebook”)<br />

3) Niveles <strong>de</strong> abstracción involucrados <strong>en</strong> el conjunto <strong>de</strong> reglas: las asociaciones se pue<strong>de</strong>n<br />

clasificar <strong>en</strong> reglas <strong>de</strong> “un nivel” o “multi-nivel” <strong>de</strong> acuerdo a la abstracción <strong>en</strong> el<br />

conocimi<strong>en</strong>to extraído. Por ejemplo, <strong>en</strong> las sigui<strong>en</strong>tes asociaciones:<br />

Edad (X, “30…39”) Compra (X, “Notebook”)<br />

Edad (X, “30…39”) Compra (X, “Computador”)<br />

Notebook correspon<strong>de</strong> a un nivel más bajo o sub-categorización <strong>de</strong> Computador. Es<br />

<strong>de</strong>cir, Computador es la g<strong>en</strong>eralización <strong>de</strong> Notebook, palms, calculadoras electrónicas, etc.,<br />

<strong>en</strong> este caso se habla <strong>de</strong> reglas multi-nivel. Cuando no se pue<strong>de</strong> establecer alguna relación,<br />

como g<strong>en</strong>eralización, jerarquía, etc., se habla <strong>de</strong> reglas con un nivel <strong>de</strong> abstracción.<br />

4) Ext<strong>en</strong>siones para realizar el minado <strong>de</strong> asociaciones: el minado <strong>de</strong> reglas pue<strong>de</strong> ext<strong>en</strong><strong>de</strong>rse<br />

hacia el análisis <strong>de</strong> correlaciones, don<strong>de</strong> la aus<strong>en</strong>cia o pres<strong>en</strong>cia <strong>de</strong> ítems correlacionados es<br />

i<strong>de</strong>ntificada. Esta ext<strong>en</strong>sión pue<strong>de</strong> realizarse <strong>en</strong> dos formas: ya sea <strong>en</strong>contrando Patrones<br />

Maximales Frecu<strong>en</strong>tes (Maxpattern) o Itemsets Cerrados Frecu<strong>en</strong>tes. Un Maxpattern es un<br />

patrón frecu<strong>en</strong>te p, tal que cualquier otro patrón que cont<strong>en</strong>ga p no es frecu<strong>en</strong>te. En cambio,<br />

un Itemsets c es un Itemset Cerrado Frecu<strong>en</strong>te si c es cerrado y no existe ningún conjunto c’<br />

que cont<strong>en</strong>ga a c, tal que toda transacción que conti<strong>en</strong>e a c también conti<strong>en</strong>e c’. Ambos<br />

<strong>en</strong>foques son utilizados para reducir sustancialm<strong>en</strong>te el número <strong>de</strong> itemsets frecu<strong>en</strong>tes a partir<br />

19


<strong>de</strong> los cuales se g<strong>en</strong>eran reglas <strong>de</strong> asociación <strong>en</strong> procesos tanto <strong>de</strong> Data <strong>Mining</strong> como <strong>de</strong> <strong>Text</strong><br />

<strong>Mining</strong>.<br />

Existe una gran cantidad <strong>de</strong> técnicas para g<strong>en</strong>erar reglas <strong>de</strong> asociación, <strong>en</strong>tre los cuales<br />

<strong>de</strong>stacan los algoritmos Apriori [11] y Aclose o Close Algorithm [29,30].<br />

Algoritmo Apriori<br />

El algoritmo Apriori [11] permite realizar minería <strong>en</strong> itemsets frecu<strong>en</strong>tes <strong>de</strong> reglas <strong>de</strong><br />

asociación <strong>de</strong>l tipo Boolean. Un itemset es un conjunto <strong>de</strong> ítems y un itemset frecu<strong>en</strong>te se<br />

<strong>en</strong>ti<strong>en</strong><strong>de</strong> como un itemset que supera un umbral mínimo <strong>de</strong> support (minsupport). El nombre<br />

“Apriori” provi<strong>en</strong>e <strong>de</strong>l hecho que el algoritmo utiliza cierto conocimi<strong>en</strong>to previo <strong>de</strong> las<br />

propieda<strong>de</strong>s <strong>de</strong> los itemsets frecu<strong>en</strong>tes. Apriori utiliza un <strong>en</strong>foque iterativo conocido como<br />

Búsqueda por niveles (level-wise search), <strong>en</strong> el cual los itemsets <strong>de</strong> k elem<strong>en</strong>tos (k-itemsets)<br />

son usados para explorar (k+1)–itemsets. Como primer paso, el algoritmo g<strong>en</strong>era el conjunto<br />

frecu<strong>en</strong>te <strong>de</strong> un elem<strong>en</strong>to, (1–itemset), <strong>de</strong>nominado L1, posteriorm<strong>en</strong>te a partir <strong>de</strong> L1 se<br />

g<strong>en</strong>era L2 y, así, sucesivam<strong>en</strong>te hasta que no se pue<strong>de</strong>n g<strong>en</strong>erar más k-itemsets frecu<strong>en</strong>tes. La<br />

estructura g<strong>en</strong>eral <strong>de</strong>l algoritmo es la sigui<strong>en</strong>te:<br />

Sea Ck: itemset candidato <strong>de</strong> tamaño k<br />

Lk: itemset frecu<strong>en</strong>te <strong>de</strong> tamaño k<br />

L1={ítems frecu<strong>en</strong>tes}<br />

For (k=1;Lk Φ; k++)<br />

Ck+1 = Candidatos g<strong>en</strong>erados <strong>de</strong>s<strong>de</strong> Lk<br />

for cada transacción t <strong>en</strong> la base <strong>de</strong> datos do<br />

increm<strong>en</strong>tar la cu<strong>en</strong>ta <strong>de</strong> todos los candidatos <strong>en</strong> Ck+1 que están cont<strong>en</strong>idos <strong>en</strong> t<br />

Lk+1= Candidatos <strong>en</strong> Ck+1 con mínimo support<br />

End for<br />

return Lk<br />

Para mejorar la efici<strong>en</strong>cia <strong>de</strong> la g<strong>en</strong>eración <strong>de</strong> los itemsets frecu<strong>en</strong>tes se utiliza la<br />

propiedad Apriori. Esta reduce el espacio <strong>de</strong> búsqueda <strong>de</strong> itemsets frecu<strong>en</strong>tes, estableci<strong>en</strong>do<br />

que todo subconjunto no vacío <strong>de</strong> un itemset frecu<strong>en</strong>te también es frecu<strong>en</strong>te. Es <strong>de</strong>cir, un<br />

conjunto X <strong>de</strong> ítems pue<strong>de</strong> ser frecu<strong>en</strong>te sólo si todos los subconjuntos <strong>de</strong> ítems son<br />

frecu<strong>en</strong>tes.<br />

Así, la tarea <strong>de</strong> <strong>en</strong>contrar todos los itemsets frecu<strong>en</strong>tes se reduce a obt<strong>en</strong>er conjuntos<br />

frecu<strong>en</strong>tes <strong>de</strong> un elem<strong>en</strong>to, luego <strong>de</strong> dos elem<strong>en</strong>tos, hasta conjuntos <strong>de</strong> k elem<strong>en</strong>tos. Por<br />

ejemplo, la figura 5 repres<strong>en</strong>ta una base <strong>de</strong> datos D con cinco items (m=5), <strong>de</strong>s<strong>de</strong> la cual se<br />

pue<strong>de</strong> g<strong>en</strong>erar <strong>de</strong> 2 m conjuntos <strong>de</strong> ítems o itemsets. En la figura 5 se muestran todos los ítems<br />

que son g<strong>en</strong>erados a partir <strong>de</strong> la base <strong>de</strong> datos D. En este lattice los itemsets remarcados son<br />

lo que pose<strong>en</strong> un support ≥2, es <strong>de</strong>cir, itemsets frecu<strong>en</strong>tes <strong>en</strong> la base <strong>de</strong> datos D dado un<br />

minsupport=2.<br />

20


TID Items<br />

1 A C D<br />

2 B C E<br />

3 A B C E<br />

4 B E<br />

5 A B C E<br />

Figura 4: Transacciones <strong>en</strong> una base <strong>de</strong> datos D.<br />

Figura 5: Lattice <strong>de</strong> itemsets <strong>de</strong> la base <strong>de</strong> datos D.<br />

A partir <strong>de</strong> los itemsets frecu<strong>en</strong>tes <strong>en</strong>contrados se g<strong>en</strong>eran las reglas <strong>de</strong> asociación <strong>de</strong> la<br />

sigui<strong>en</strong>te manera:<br />

1) Por cada itemset frecu<strong>en</strong>te L, g<strong>en</strong>erar todos los subconjuntos no vacíos <strong>de</strong> L.<br />

2) Por cada subconjunto no vació S <strong>de</strong> L, se forma la regla “S (L-S)” si se cumple la<br />

sigui<strong>en</strong>te condición: support (L)/support(S) ≥ minconfi<strong>de</strong>nce.<br />

21<br />

L4<br />

L3<br />

L2<br />

L1


Algoritmo Aclose<br />

El algoritmo Aclose o Close Algorithm [29,30] se basa <strong>en</strong> un método <strong>de</strong> minado <strong>de</strong><br />

reglas <strong>de</strong> asociación <strong>de</strong>nominado “podado <strong>de</strong>l conjunto lattice cerrado”. Un Lattice o retículo<br />

es un conjunto or<strong>de</strong>nado <strong>de</strong> ítems (A, ≤) si para cada par <strong>de</strong> ítems (a, b) A existe un<br />

supremo {a, b} e ínfimo {a, b}. En Aclose se <strong>de</strong>fin<strong>en</strong> los sigui<strong>en</strong>tes conceptos:<br />

1) Contexto minería <strong>de</strong> datos: correspon<strong>de</strong> a una tupla D=(O, I, R), don<strong>de</strong> O es un conjunto<br />

finito <strong>de</strong> Objetos, I un conjunto finito <strong>de</strong> ítems <strong>de</strong> una base <strong>de</strong> datos y R es la relación binaria<br />

R OxI. Cada par (o, i) R repres<strong>en</strong>ta el hecho que el objeto o O ti<strong>en</strong>e el ítem i I.<br />

Un contexto es una repres<strong>en</strong>tación <strong>de</strong> la base <strong>de</strong> datos, don<strong>de</strong> los objetos correspon<strong>de</strong>n<br />

a las transacciones, y la relación R establece si una transacción posee o no cierto atributo<br />

(ítem). En tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os, los objetos correspon<strong>de</strong>n a docum<strong>en</strong>tos, los ítems a<br />

features (palabras, términos, párrafos, oraciones, etc.), y la relación R establece los features<br />

que posee cada docum<strong>en</strong>to.<br />

2) Conexión <strong>de</strong> Galois: correspon<strong>de</strong> a una estructura conceptual que permite agrupar<br />

transacciones (objetos) <strong>de</strong> una base <strong>de</strong> datos que pose<strong>en</strong> ítems comunes con el fin <strong>de</strong> g<strong>en</strong>erar<br />

conexiones conceptuales <strong>en</strong> un espacio <strong>de</strong> g<strong>en</strong>eralización y especialización. Dado un contexto<br />

<strong>de</strong> minería <strong>de</strong> datos D=(O, I, R). Para O’ O y I’ I una Conexión <strong>de</strong> Galois se obti<strong>en</strong>e<br />

aplicando las sigui<strong>en</strong>tes funciones:<br />

f (O')<br />

: P( O)<br />

P(<br />

I )<br />

g (I ')<br />

: P( I)<br />

P(<br />

O)<br />

f ( O')<br />

{ i I | o<br />

O',<br />

( o,<br />

i)<br />

R}<br />

g( I'<br />

) { o O<br />

| i<br />

I',<br />

( o,<br />

i)<br />

R}<br />

La función <strong>de</strong> mapeo f (O')<br />

asocia con O todos los ítems comunes con todos los<br />

objetos oO. Por otro lado g (I ')<br />

asocia con I todos los objetos que conti<strong>en</strong><strong>en</strong> todos los ítems<br />

i I. Entonces la aplicación <strong>de</strong> ( f , g)<br />

<strong>en</strong> el conjunto O se <strong>de</strong>nomina Conexión <strong>de</strong> Galois.<br />

3) Itemset Cerrado: Dado un conjunto <strong>de</strong> ítems <strong>en</strong> una base <strong>de</strong> datos, un itemset es cerrado si<br />

es el mayor conjunto <strong>de</strong> ítems comunes a ciertas transacciones, es <strong>de</strong>cir, no existe otro<br />

conjunto mayor <strong>de</strong> ítems comunes a esas transacciones. Dado C I. El conjunto C <strong>de</strong> items es<br />

cerrado si y sólo si g f ( C)<br />

C . A<strong>de</strong>más, el itemset cerrado minimal que conti<strong>en</strong>e un itemset<br />

I’ se obti<strong>en</strong>e aplicando g f <strong>en</strong> I’.<br />

4) Lattice Itemset Cerrado: correspon<strong>de</strong> un diagrama <strong>de</strong> tipo Lattice <strong>en</strong> el cual sólo se<br />

<strong>en</strong>cu<strong>en</strong>tran los conjuntos <strong>de</strong> ítems cerrados. Dado C’ el conjunto <strong>de</strong> itemsets cerrados<br />

obt<strong>en</strong>idos <strong>de</strong> D al usar la Conexión <strong>de</strong> Galois. Al aplicar <strong>en</strong> C’ una relación <strong>de</strong> or<strong>de</strong>n se<br />

obti<strong>en</strong>e el par Lc= (C’, ≤) que es un lattice completo <strong>de</strong>nominado Lattice Itemset Cerrado.<br />

22


Un Lattice <strong>de</strong> Itemset Cerrados posee las sigui<strong>en</strong>tes propieda<strong>de</strong>s:<br />

1. Todo subconjunto <strong>de</strong> un conjunto <strong>de</strong> itemsets frecu<strong>en</strong>tes es frecu<strong>en</strong>te.<br />

2. Todo súper conjunto <strong>de</strong> itemsets <strong>de</strong> un conjunto <strong>de</strong> itemsets no frecu<strong>en</strong>tes es no<br />

frecu<strong>en</strong>te.<br />

3. Todo subconjunto cerrado <strong>de</strong> itemsets <strong>de</strong> un conjunto cerrado <strong>de</strong> itemsets<br />

frecu<strong>en</strong>tes es frecu<strong>en</strong>te.<br />

4. Todo súper conjunto cerrado <strong>de</strong> itemsets <strong>de</strong> un conjunto cerrado <strong>de</strong> itemsets no<br />

frecu<strong>en</strong>tes es no frecu<strong>en</strong>te.<br />

5. El conjunto maximal <strong>de</strong> itemset frecu<strong>en</strong>tes es igual al conjunto maximal <strong>de</strong><br />

itemsets cerrados frecu<strong>en</strong>tes.<br />

6. El valor <strong>de</strong> support <strong>de</strong> un itemset frecu<strong>en</strong>te I es igual al support <strong>de</strong>l conjunto<br />

cerrado frecu<strong>en</strong>te más pequeño que conti<strong>en</strong>e a I.<br />

Las propieda<strong>de</strong>s antes m<strong>en</strong>cionadas permit<strong>en</strong> que el método AClose realice un proceso<br />

<strong>de</strong> poda <strong>en</strong> un Lattice <strong>de</strong> Itemsets Cerrados para <strong>en</strong>contrar los itemsets frecu<strong>en</strong>tes. Un itemset<br />

cerrado C correspon<strong>de</strong> a un conjunto maximal <strong>de</strong> items comunes a un conjunto <strong>de</strong> objetos O.<br />

Al ser C un conjunto maximal significa que no existe otro conjunto mayor C’ que lo cont<strong>en</strong>ga<br />

y sea común al conjunto <strong>de</strong> objetos O.<br />

Por ejemplo, <strong>en</strong> la base <strong>de</strong> datos D <strong>de</strong> la figura 4, se aprecia que el conjunto <strong>de</strong> ítems<br />

{B, C, E}, es un itemset cerrado <strong>de</strong>bido a que es el conjunto maximal <strong>de</strong> items comunes a los<br />

objetos {2, 3, 5}. En otras palabras, no existe otro conjunto <strong>de</strong> elem<strong>en</strong>tos que sea mayor a {B,<br />

C, E} cuyos elem<strong>en</strong>tos estén <strong>en</strong> las transacciones {2, 3, 5}. En cambio, el conjunto {B, C} no<br />

es un itemset cerrado puesto que no correspon<strong>de</strong> a un grupo maximal <strong>de</strong> ítems comunes a<br />

algunos objetos o transacciones, como se aprecia todas las transacciones que ti<strong>en</strong><strong>en</strong> los ítems<br />

B y C también ti<strong>en</strong><strong>en</strong> a E. De igual forma se obti<strong>en</strong><strong>en</strong> los itemsets cerrados {A, C, D}, {A, B,<br />

C, E}, {A, C}, {C} y {B, E}. Más el conjunto raíz {A, B, C, D, E} que conti<strong>en</strong>e todos los<br />

elem<strong>en</strong>tos <strong>de</strong> la base <strong>de</strong> datos D, y el conjunto { } .<br />

Figura 6: Lattice <strong>de</strong> itemsets cerrados para D.<br />

23


Como se aprecia <strong>en</strong> la figura 6, el Lattice <strong>de</strong> itemsets cerrados es un subconjunto <strong>de</strong>l<br />

lattice <strong>de</strong> itemsets <strong>de</strong> la figura 5, razón por lo cual, se dice que es un conjunto <strong>de</strong> m<strong>en</strong>or or<strong>de</strong>n<br />

respecto lattice completo <strong>de</strong> itemsets.<br />

La g<strong>en</strong>eración <strong>de</strong> las reglas <strong>de</strong> asociación con AClose se lleva a cabo por medio <strong>de</strong> las<br />

sigui<strong>en</strong>tes etapas:<br />

1) Encontrar todos los itemsets cerrados frecu<strong>en</strong>tes (todos los itemsets que son cerrados<br />

y ti<strong>en</strong><strong>en</strong> un support mayor o igual que el minsupport).<br />

2) Derivar todos los itemsets frecu<strong>en</strong>tes a partir <strong>de</strong> los itemsets cerrados frecu<strong>en</strong>tes<br />

<strong>de</strong>scubiertos <strong>en</strong> la etapa 1.<br />

3) G<strong>en</strong>erar todas las reglas <strong>de</strong> asociación que se pue<strong>de</strong>n <strong>de</strong>rivar a partir <strong>de</strong> los itemsets<br />

frecu<strong>en</strong>tes que ti<strong>en</strong><strong>en</strong> un confi<strong>de</strong>nce mayor que el minconfi<strong>de</strong>nce.<br />

El número <strong>de</strong> conjuntos cerrados frecu<strong>en</strong>tes g<strong>en</strong>erados con Aclose es muy inferior al<br />

número <strong>de</strong> conjuntos frecu<strong>en</strong>tes que se g<strong>en</strong>eran con Apriori. Por lo tanto, la g<strong>en</strong>eración <strong>de</strong><br />

conjuntos cerrados frecu<strong>en</strong>tes ti<strong>en</strong>e un costo <strong>de</strong> cómputo m<strong>en</strong>or que la g<strong>en</strong>eración <strong>de</strong><br />

conjuntos frecu<strong>en</strong>tes. Al utilizar Lattice <strong>de</strong> Itemsets Cerrados para <strong>en</strong>contrar los itemsets<br />

frecu<strong>en</strong>tes se mejora la efici<strong>en</strong>cia <strong>de</strong>l <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> reglas <strong>de</strong> asociación <strong>en</strong> comparación<br />

con Apriori. Esto se <strong>de</strong>be al hecho que minimizando el espacio <strong>de</strong> búsqueda se logra reducir<br />

tanto el número <strong>de</strong> accesos a la base <strong>de</strong> datos como la sobrecarga <strong>en</strong> la cpu al g<strong>en</strong>erar los<br />

itemsets frecu<strong>en</strong>tes.<br />

<strong>Evaluación</strong> e Interpretación <strong>de</strong> los Patrones Descubiertos<br />

La última etapa <strong>de</strong> un proceso <strong>de</strong> minería <strong>de</strong> textos (ver figura 1) correspon<strong>de</strong> a<br />

evaluar e interpretar los patrones <strong>de</strong>scubiertos, puesto que los sistemas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os<br />

g<strong>en</strong>eralm<strong>en</strong>te no son “accionables”, es <strong>de</strong>cir, a partir <strong>de</strong> los patrones <strong>en</strong>contrados no pue<strong>de</strong>n<br />

tomar <strong>de</strong>cisiones <strong>de</strong> manera automática. Estos requier<strong>en</strong> <strong>de</strong> expertos humanos que analic<strong>en</strong> el<br />

conocimi<strong>en</strong>to <strong>de</strong>scubierto y los evalú<strong>en</strong>.<br />

En esta etapa final <strong>de</strong>l proceso <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os, expertos humanos <strong>de</strong>b<strong>en</strong><br />

interpretar el conocimi<strong>en</strong>to <strong>de</strong>scubierto, es <strong>de</strong>cir, darles significado a los patrones que fueron<br />

<strong>en</strong>contrados y <strong>de</strong>scubrir las razones <strong>de</strong> su <strong>de</strong>scubrimi<strong>en</strong>to. En el conocimi<strong>en</strong>to <strong>de</strong>scubierto<br />

exist<strong>en</strong> patrones que son más interesantes que otros, razón por la cual, los expertos humanos<br />

<strong>de</strong>b<strong>en</strong> evaluar cuáles <strong>de</strong> ellos son los que le aportan conocimi<strong>en</strong>to que le sean <strong>de</strong> utilidad <strong>en</strong> la<br />

toma <strong>de</strong> <strong>de</strong>cisiones. Esto es clave <strong>de</strong>bido al hecho que se pue<strong>de</strong>n g<strong>en</strong>erar <strong>de</strong>masiados patrones<br />

irrelevantes.<br />

En g<strong>en</strong>eral, se espera que los sistemas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os g<strong>en</strong>er<strong>en</strong> conocimi<strong>en</strong>tos<br />

que sean <strong>de</strong> utilidad a los expertos humanos. Algunos <strong>en</strong>foques actuales [3, 4, 6, 7, 8] buscan<br />

mejorar el proceso <strong>de</strong> evaluación <strong>de</strong>l conocimi<strong>en</strong>to <strong>de</strong>scubierto antes <strong>de</strong> ser pres<strong>en</strong>tado a los<br />

expertos humanos que toman <strong>de</strong>cisiones. En estos <strong>en</strong>foques, las reglas <strong>de</strong> asociación<br />

<strong>de</strong>scubiertas se evalúan con métricas que consi<strong>de</strong>ran aspectos más allá <strong>de</strong> los estadísticos<br />

utilizados <strong>en</strong> las medidas tradicionales <strong>de</strong> support y confi<strong>de</strong>nce.<br />

24


2.2 Análisis Semántico Lat<strong>en</strong>te<br />

El Análisis Semántico Lat<strong>en</strong>te (Lat<strong>en</strong>t Semantic Analysis o LSA) es una técnica<br />

matemática que se basa <strong>en</strong> análisis estadístico para extraer y analizar la semántica exist<strong>en</strong>te<br />

<strong>en</strong>tre palabras, palabras y párrafos y <strong>en</strong>tre párrafos que exist<strong>en</strong> <strong>en</strong> un corpus <strong>de</strong> texto [22].<br />

Específicam<strong>en</strong>te LSA permite inferir relaciones <strong>de</strong> uso contextual esperado <strong>de</strong> palabras <strong>en</strong><br />

pasajes <strong>de</strong> discurso que están <strong>en</strong> forma implícita <strong>en</strong> los docum<strong>en</strong>tos <strong>de</strong> textos. LSA, a<br />

difer<strong>en</strong>cia <strong>de</strong> otros métodos, no utiliza ningún diccionario construido humanam<strong>en</strong>te, re<strong>de</strong>s<br />

semánticas, gramáticas, segm<strong>en</strong>tadores sintácticos, o morfologías, sino más bi<strong>en</strong> realiza un<br />

análisis más profundo, a partir <strong>de</strong>l corpus <strong>de</strong> texto, para <strong>en</strong>tregar significados a las palabras.<br />

LSA, solam<strong>en</strong>te toma como <strong>en</strong>trada la segm<strong>en</strong>tación <strong>en</strong> bruto <strong>de</strong>l texto, <strong>en</strong> palabras <strong>de</strong>finidas<br />

como ca<strong>de</strong>nas <strong>de</strong> caracteres únicos y separados <strong>en</strong> pasajes significativos o ejemplos como<br />

frases o párrafos [21] [22]. Las infer<strong>en</strong>cias que pue<strong>de</strong> realizar LSA sólo son posibles una vez<br />

que el método es <strong>en</strong>tr<strong>en</strong>ado con un corpus <strong>de</strong> <strong>en</strong>trada.<br />

LSA apr<strong>en</strong><strong>de</strong> el significado <strong>de</strong> palabras <strong>de</strong>terminando <strong>en</strong> qué contextos éstas aparec<strong>en</strong>,<br />

lo cual es similar a como los niños no adquier<strong>en</strong> el significado <strong>de</strong> las palabras a través <strong>de</strong> las<br />

<strong>de</strong>finiciones explícitas, sino que observando cómo estas se utilizan <strong>en</strong> el contexto [21]. Esta<br />

forma <strong>de</strong> apr<strong>en</strong><strong>de</strong>r no requiere el apoyo <strong>de</strong> un experto <strong>en</strong> el dominio que guíe el conocimi<strong>en</strong>to<br />

adquirido, lo cual lo hace interesante para aplicaciones computacionales <strong>de</strong> análisis <strong>de</strong> textos,<br />

como <strong>en</strong> el caso <strong>de</strong> text mining.<br />

Exist<strong>en</strong> dos características fundam<strong>en</strong>tales que difer<strong>en</strong>cian a LSA <strong>de</strong> otros métodos<br />

empíricos <strong>de</strong> análisis <strong>de</strong> texto a nivel <strong>de</strong> palabras claves. Primero, LSA utiliza como <strong>en</strong>trada<br />

patrones <strong>de</strong> ocurr<strong>en</strong>cia <strong>de</strong> muchas palabras sobre un gran número <strong>de</strong> contextos, como<br />

oraciones o párrafos, lo cual <strong>en</strong>trega mejores resultados que otros <strong>en</strong>foques dón<strong>de</strong> sólo<br />

consi<strong>de</strong>ran la suma <strong>de</strong> pares contiguos <strong>de</strong> co-ocurr<strong>en</strong>cias <strong>de</strong> palabras. Así, LSA no consi<strong>de</strong>ra la<br />

forma <strong>en</strong> la cual el or<strong>de</strong>n <strong>de</strong> las palabras produce el significado <strong>de</strong> la oración, si no más bi<strong>en</strong><br />

captura sólo la forma <strong>en</strong> que se relacionan las palabras. [22].<br />

La segunda característica ti<strong>en</strong>e relación con la dim<strong>en</strong>sión semántica <strong>en</strong> la cual se<br />

repres<strong>en</strong>tan las palabras, específicam<strong>en</strong>te, LSA apunta que por medio <strong>de</strong> una reducción <strong>en</strong> la<br />

dim<strong>en</strong>sionalidad <strong>de</strong> los datos se pue<strong>de</strong> producir una mejor aproximación a las relaciones<br />

cognitivas humanas. Esta reducción permite capturar relaciones más profundas <strong>de</strong><br />

implicancia mutuas <strong>de</strong> palabras. [22].<br />

Otro aspecto que difer<strong>en</strong>cia a LSA correspon<strong>de</strong> a la etapa <strong>de</strong> pre-procesami<strong>en</strong>to que<br />

éste utiliza, <strong>en</strong> la cual se toma <strong>en</strong> cu<strong>en</strong>ta la distribución total <strong>de</strong> una palabra <strong>en</strong> los contextos<br />

<strong>en</strong> que se emplea, in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> sus correlaciones con otras palabras. Se ha probado que<br />

esto produce mejoras <strong>en</strong> los resultados que <strong>en</strong>trega este método [22].<br />

A pesar <strong>de</strong> sus v<strong>en</strong>tajas, LSA posee algunos problemas <strong>en</strong> la práctica, por ejemplo no<br />

toma <strong>en</strong> consi<strong>de</strong>ración el or<strong>de</strong>n <strong>de</strong> las palabras, ni tampoco las relaciones sintácticas, lógicas,<br />

o morfológicas [22], las cuales son mínimas <strong>en</strong> comparación a sus b<strong>en</strong>eficios.<br />

25


LSA opera tomando como <strong>en</strong>trada todos los docum<strong>en</strong>tos <strong>de</strong> un corpus <strong>de</strong> textos, y el<br />

primer paso consiste <strong>en</strong> repres<strong>en</strong>tar este texto <strong>de</strong> <strong>en</strong>trada <strong>en</strong> una matriz con una palabra por<br />

cada fila y un pasaje <strong>de</strong> texto <strong>en</strong> cada columna. Cada celda <strong>de</strong> la matriz conti<strong>en</strong>e la frecu<strong>en</strong>cia<br />

con la cual la palabra aparece <strong>en</strong> el pasaje <strong>de</strong> texto. Como segundo paso realiza una<br />

transformación preliminar a cada celda, <strong>en</strong> la cual su cont<strong>en</strong>ido es pon<strong>de</strong>rado por una función<br />

que expresa tanto la importancia <strong>de</strong> la palabra <strong>en</strong> el pasaje <strong>en</strong> particular, como el grado <strong>en</strong> el<br />

cual la palabra conti<strong>en</strong>e información relevante <strong>en</strong> el dominio <strong>de</strong>l discurso <strong>en</strong> g<strong>en</strong>eral [22].<br />

Posteriorm<strong>en</strong>te, LSA aplica un conjunto <strong>de</strong> operaciones matriciales, utilizando la<br />

técnica <strong>de</strong> Descomposición <strong>de</strong> Valores Singulares (Singular Value Descomposition o SVD) a<br />

la matriz creada. Esta técnica correspon<strong>de</strong> a un tipo <strong>de</strong> análisis factorial, o más bi<strong>en</strong>, la<br />

g<strong>en</strong>eralización matemática <strong>de</strong> la cual <strong>de</strong>riva el análisis factorial. En SVD, una matriz<br />

rectangular es <strong>de</strong>scompuesta <strong>en</strong> el producto <strong>de</strong> tres matrices. Una <strong>de</strong> estas matrices<br />

compon<strong>en</strong>tes (W) <strong>de</strong>scribe las <strong>en</strong>tida<strong>de</strong>s <strong>de</strong> fila <strong>de</strong> la matriz original como vectores <strong>de</strong> valores<br />

factoriales ortogonales <strong>de</strong>rivados. Otra matriz (P) <strong>de</strong>scribe las <strong>en</strong>tida<strong>de</strong>s <strong>de</strong> columna originales<br />

<strong>de</strong> la misma forma y la tercera es una matriz diagonal (S) que conti<strong>en</strong>e valores <strong>de</strong><br />

“escalami<strong>en</strong>to” <strong>de</strong> modo que, cuando las tres compon<strong>en</strong>tes son multiplicadas, se recupera la<br />

matriz original. Se pue<strong>de</strong> reducir la dim<strong>en</strong>sionalidad <strong>de</strong> la solución <strong>de</strong> forma simple<br />

eliminando coefici<strong>en</strong>tes <strong>en</strong> la matriz diagonal, comúnm<strong>en</strong>te empezando con el m<strong>en</strong>or <strong>de</strong> ellos<br />

[22].<br />

A continuación, mediante un ejemplo, se muestra lo que se pue<strong>de</strong> lograr al utilizar la<br />

técnica <strong>de</strong>l SVD. En el ejemplo, extraído <strong>de</strong> [22], se utilizan los títulos <strong>de</strong> nueve artículos<br />

técnicos, cinco sobre interacción hombre-máquina y cuatro sobre teoría matemática <strong>de</strong> grafos.<br />

De esta forma, la matriz original ti<strong>en</strong>e nueve columnas y doce filas, cada una correspondi<strong>en</strong>te<br />

a una palabra usada <strong>en</strong>, a lo m<strong>en</strong>os, dos <strong>de</strong> los pasajes.<br />

26


En la figura 7 se dan a conocer los títulos <strong>de</strong> los artículos y la matriz g<strong>en</strong>erada,<br />

obt<strong>en</strong>idas <strong>de</strong> [22]. Las <strong>en</strong>tradas <strong>de</strong> las celdas son el número <strong>de</strong> veces que una palabra aparece<br />

<strong>en</strong> un título.<br />

Example of text data: Titles of Some Technical Memos<br />

c1: Human machine interface for ABC computer applications<br />

c2: A survey of user opinion of computer system response time<br />

c3: The EPS user interface managem<strong>en</strong>t system<br />

c4: System and human system <strong>en</strong>gineering testing of EPS<br />

c5: Relation of user perceived response time to error measurem<strong>en</strong>t<br />

m1: The g<strong>en</strong>eration of random, binary, or<strong>de</strong>red trees<br />

m2: The intersection graph of paths in trees<br />

m3: Graph minors IV: Widths<br />

m4: Graph minors: A survey<br />

{X}=<br />

c1 c2 c3 c4 c5 m1 m2 m3 m4<br />

human 1 0 0 1 0 0 0 0 0<br />

interface 1 0 1 0 0 0 0 0 0<br />

computer 1 1 0 0 0 0 0 0 0<br />

user 0 1 1 0 1 0 0 0 0<br />

system 0 1 1 2 0 0 0 0 0<br />

response 0 1 0 0 1 0 0 0 0<br />

time 0 1 0 0 1 0 0 0 0<br />

EPS 0 0 1 1 0 0 0 0 0<br />

survey 0 1 0 0 0 0 0 0 1<br />

trees 0 0 0 0 0 1 1 1 0<br />

graph 0 0 0 0 0 0 1 1 1<br />

minors 0 0 0 0 0 0 1 1<br />

r(human.user)=-.38<br />

r(human.minors)=-.29<br />

Figura 7: Una matriz <strong>de</strong> palabras por contextos.<br />

Luego, <strong>en</strong> la figura 8 se muestra la <strong>de</strong>scomposición lineal. La multiplicación <strong>de</strong> estas<br />

matrices reconstruye la matriz original {X}.<br />

27


{X}={W}{S}{P}´<br />

{W}=<br />

0,22 -0,11 0,29 -0,41 -0,11 -0,34 0,52 -0,06 -0,41<br />

0,20 -0,07 0,14 -0,55 0,28 0,50 -0,07 -0,01 -0,11<br />

0,24 0,04 -0,16 -0,59 -0,11 -0,25 -0,30 0,06 0,49<br />

0,40 0,06 -0,34 0,10 0,33 0,38 0,00 0,0 0,01<br />

0,64 -0,17 0,36 0,33 -0,16 -0,21 -0,17 0,03 0,27<br />

0,27 0,11 -0,43 0,07 0,08 -0,17 0,28 -0,02 -0,05<br />

0,27 0,11 -0,43 0,07 0,08 -0,17 0,28 -0,02 -0,05<br />

0,30 -0,14 0,33 0,19 0,11 0,27 0,03 -0,02 -0,17<br />

0,21 0,27 -0,18 -0,03 -0,54 0,08 -0,47 -0,04 -0,58<br />

0,01 0,49 0,23 0,03 0,59 -0,39 -0,29 0,25 -0,23<br />

0,04 0,62 0,22 0,00 -0,07 0,11 0,16 -0,68 0,23<br />

0,03 0,45 0,14 -0,01 -0,30 0,28 0,34 0,68 0,18<br />

{S}=<br />

3,34<br />

2,54<br />

2,35<br />

1,64<br />

1,5<br />

28<br />

1,31<br />

0,85<br />

0,56<br />

0,36<br />

{P}=<br />

0,20 0,61 0,46 0,46 0,28 0,00 0,01 0,02 0,08<br />

-0,06 0,17 -0,13 -0,13 0,11 0,19 0,44 0,62 0,53<br />

0,11 -0,50 0,21 0,21 -0,51 0,10 0,19 0,25 0,08<br />

-0,95 -0,03 0,04 0,04 0,15 0,02 0,02 0,01 -0,03<br />

0,05 -0,21 0,38 0,38 0,33 0,39 0,35 0,15 -0,60<br />

-0,08 -0,26 0,72 0,72 0,03 -0,30 -0,21 0,00 0,36<br />

0,18 -0,43 -0,24 -0,24 0,67 -0,34 -0,15 0,25 0,04<br />

-0,01 0,05 0,01 0,01 -0,06 0,45 -0,76 0,45 -0,07<br />

Figura 8: SVD completo <strong>de</strong> la matriz <strong>en</strong> la figura 8<br />

La figura 8 muestra una reconstrucción basada <strong>en</strong> dos dim<strong>en</strong>siones que aproxima a la<br />

matriz original {X}. Ésta reconstrucción utiliza elem<strong>en</strong>tos vectoriales sólo <strong>de</strong> las primeras dos<br />

columnas (Color amarillo) <strong>de</strong> las tres matrices <strong>de</strong>splegadas <strong>en</strong> la figura anterior. Esto equivale<br />

a reemplazar todos los valores <strong>de</strong> la matriz S (excepto los dos mayores) con cero.


{X´}=<br />

c1 c2 c3 c4 c5 m1 m2 m3 m4<br />

human 0,16 0,4 0,38 0,47 0,18 -0,05 -0,12 -0,16 -0,09<br />

interface 0,14 0,37 0,33 0,4 0,16 -0,03 -0,07 0,1 -0,04<br />

computer 0,15 0,51 0,36 0,41 0,24 0,02 0,06 0,09 0,12<br />

user 0,26 0,84 0,61 0,7 0,39 0,03 0,08 0,12 0,19<br />

system 0,45 1,23 1,05 1,27 0,56 -0,07 -0,15 -0,21 -0,05<br />

response 0,16 0,58 0,38 0,42 0,28 0,06 0,13 0,19 0,22<br />

time 0,16 0,58 0,38 0,42 0,28 0,06 0,13 0,19 0,22<br />

EPS 0,22 0,55 0,51 0,63 0,24 -0,07 -0,14 -0,2 -0,11<br />

survey 0,1 0,53 0,23 0,21 0,27 0,14 0,31 0,44 0,42<br />

trees -0,06 0,23 -0,14 -0,27 0,14 0,24 0,55 0,77 0,66<br />

graph -0,06 0,34 -0,15 -0,3 0,2 0,31 0,69 0,98 0,85<br />

minors -0,04 0,25 -0,1 -0,21 0,15 0,22 0,5 0,71 0,62<br />

r(human.user)=-.94<br />

r(human.minors)=-.83<br />

Figura 9: Reconstrucción <strong>de</strong> {X} basada <strong>en</strong> las columnas y filas sombreadas <strong>de</strong>l SVD <strong>de</strong> la Figura 9.<br />

Al comparar las columnas sombreadas y las celdas marcadas <strong>de</strong> las figuras 7 y 9 se<br />

ilustra cómo LSA induce relaciones <strong>de</strong> similitud alterando, ya sea positiva o negativam<strong>en</strong>te, las<br />

<strong>en</strong>tradas estimadas para acomodar restricciones mutuas <strong>en</strong> los datos. Cada uno <strong>de</strong> los valores<br />

<strong>de</strong> la nueva repres<strong>en</strong>tación ha sido computada como una combinación lineal <strong>de</strong> los valores <strong>en</strong><br />

las dos dim<strong>en</strong>siones utilizadas, las cuales a su vez fueron calculadas como combinaciones<br />

lineales <strong>de</strong> los valores originales <strong>de</strong> las celdas. Sin embargo, note que si cambia la <strong>en</strong>trada <strong>de</strong><br />

alguna celda <strong>en</strong> la matriz original, los valores <strong>en</strong> la reconstrucción <strong>de</strong> m<strong>en</strong>or dim<strong>en</strong>sión<br />

pue<strong>de</strong>n estar cambiados <strong>en</strong> cualquier celda, lo que repres<strong>en</strong>ta el s<strong>en</strong>tido matemático <strong>en</strong> el cual<br />

LSA calcula infer<strong>en</strong>cia o inducción.<br />

Para ejemplificar utilizando relaciones palabra-palabra, se pue<strong>de</strong>n comparar las filas<br />

sombreadas para las palabras “human”, “user” y “minors” (<strong>en</strong> este contexto, “minor” es un<br />

término técnico <strong>de</strong> la teoría <strong>de</strong> grafos) <strong>en</strong> la matriz original y <strong>en</strong> las reconstrucciones<br />

bidim<strong>en</strong>sionales (figuras 7 y 9). En la original, “human” nunca aparece <strong>en</strong> el mismo pasaje ya<br />

sea con “user” o “minors”, es <strong>de</strong>cir, no son co-ocurr<strong>en</strong>tes (no están contiguos o asociados).<br />

Las correlaciones (usando el coefici<strong>en</strong>te <strong>de</strong> correlación “r” <strong>de</strong> Spearman) son <strong>de</strong> -0.38 <strong>en</strong>tre<br />

“human” y “user”, y <strong>de</strong> -0.29 <strong>en</strong>tre “human” y “minors”. Sin embargo, <strong>en</strong> la reconstruida<br />

aproximación bidim<strong>en</strong>sional, ambos, <strong>de</strong>bido a sus relaciones indirectas, han sido alterados: la<br />

correlación “human-user” ha llegado a 0.94 y la correlación “human-minors” bajó a -0.83. De<br />

esta forma, <strong>de</strong>bido a que los términos “human” y “user” ocurr<strong>en</strong> <strong>en</strong> contextos <strong>de</strong> significado<br />

similar (aunque nunca estén <strong>en</strong> el mismo pasaje), la solución <strong>de</strong> dim<strong>en</strong>sionalidad reducida los<br />

repres<strong>en</strong>ta con mayor similitud, al contrario <strong>de</strong> lo que ocurre con “human” y “minors” [22].<br />

29


Para examinar el efecto <strong>de</strong> la reducción dim<strong>en</strong>sional sobre las relaciones <strong>en</strong>tre títulos,<br />

se calcularon las intercorrelaciones (mediante operaciones matriciales) <strong>en</strong>tre cada título y el<br />

resto, primero basándose <strong>en</strong> los datos <strong>de</strong> co-ocurr<strong>en</strong>cia y luego <strong>en</strong> los correspondi<strong>en</strong>tes<br />

vectores que repres<strong>en</strong>tan los títulos <strong>en</strong> la reconstrucción bidim<strong>en</strong>sional, lo que se muestra <strong>en</strong><br />

la figura 10.<br />

c1 c2 c3 c4 c5 m1 m2 m3<br />

c2 -0,19<br />

c3 0,00 0,00<br />

c4 0,00 0,00 0,47<br />

c5 -0,33 0,58 0,00 -0,31<br />

m1 -0,17 -0,30 -0,21 -0,16 -0,17<br />

m2 -0,26 -0,45 -0,32 -0,24 -0,26 0,67<br />

m3 -0,33 -0,58 -0,41 -0,31 -0,33 0,52 0,77<br />

m4 -0,33 -0,19 -0,41 -0,31 -0,33 -0,17 0,26 0,56<br />

0,02<br />

-0,30 0,44<br />

c2 0,91<br />

c3 1,00 0,91<br />

c4 1,00 0,88 1,00<br />

c5 0,85 0,99 0,85 0,81<br />

m1 -0,85 -0,56 -0,85 -0,88 -0,45<br />

m2 -0,85 -0,56 -0,85 -0,88 -0,44 1,00<br />

m3 -0,85 -0,56 -0,85 -0,88 -0,44 1,00 1,00<br />

m4 -0,81 -0,50 -0,81 -0,84 -0,37 1,00 1,00 1,00<br />

0,92<br />

-0,72 1,00<br />

Figura 10: Intercorrelaciones <strong>en</strong>tre vectores <strong>de</strong> la figura 8 y <strong>de</strong> la figura 9.<br />

En la reconstrucción bidim<strong>en</strong>sional es mucho más clara la agrupación por tópicos.<br />

Tanto así, que la correlación r promedio <strong>en</strong>tre los títulos <strong>de</strong> HCI (interacción hombre<br />

computador) subió <strong>de</strong>s<strong>de</strong> 0.02 a 0.92. Esto no ocurrió porque los títulos HCI fueran <strong>en</strong> g<strong>en</strong>eral<br />

similares <strong>en</strong>tre ellos (usando los datos puros, sin reducir dim<strong>en</strong>siones), sino porque<br />

contrastaban con los títulos <strong>de</strong> otros tópicos <strong>en</strong> formas muy parecidas. De modo similar, las<br />

correlaciones <strong>en</strong>tre los títulos <strong>de</strong> teoría <strong>de</strong> grafos se re-estimaron <strong>en</strong> 1.00, y aquellas <strong>en</strong>tre los<br />

dos tipos <strong>de</strong> tópicos ahora son bastante negativas, con un promedio <strong>de</strong> r = -0.72 [22].<br />

LSA permite la incorporación <strong>de</strong> información <strong>de</strong> nivel semántico léxico al análisis <strong>de</strong><br />

textos. Esto podría influir <strong>en</strong> evaluación <strong>de</strong>l grado <strong>de</strong> interés <strong>de</strong> reglas <strong>de</strong> asociación, puesto<br />

que LSA no sólo se consi<strong>de</strong>ran las palabras <strong>en</strong> sí, sino también el significado subyac<strong>en</strong>te a<br />

éstas, lo cual se pue<strong>de</strong> utilizar al mom<strong>en</strong>to <strong>de</strong> evaluar los patrones <strong>de</strong>scubiertos <strong>en</strong> tareas <strong>de</strong><br />

minería <strong>de</strong> textos.<br />

30


3. Trabajos Relacionados<br />

Las tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os que utilizan reglas, pue<strong>de</strong>n g<strong>en</strong>erar una excesiva<br />

cantidad <strong>de</strong> patrones, muchos <strong>de</strong> los cuales podrían no ser relevantes a los expertos. En el<br />

contexto <strong>de</strong> evaluación <strong>de</strong> reglas, algunos <strong>en</strong>foques reci<strong>en</strong>tes buscan mejorar los resultados<br />

obt<strong>en</strong>idos con reglas empleando técnicas que mejoran el proceso <strong>de</strong> selección <strong>de</strong> éstas para<br />

obt<strong>en</strong>er reglas más relevantes e interesantes. Por ejemplo, Mooney [4] propone un nuevo<br />

método <strong>de</strong> estimación <strong>de</strong>l grado <strong>de</strong> novedad <strong>de</strong> reglas <strong>de</strong>scubiertas por métodos <strong>de</strong> Data<br />

<strong>Mining</strong> usando la base <strong>de</strong> conocimi<strong>en</strong>to léxico WordNet [13], que conti<strong>en</strong>e miles <strong>de</strong> palabras<br />

<strong>en</strong>lazadas semánticam<strong>en</strong>te por relaciones tales como antónimos, hiperónimos, homónimos,<br />

etc. En este mo<strong>de</strong>lo el grado <strong>de</strong> novedad <strong>de</strong> una regla g<strong>en</strong>erada se calcula utilizando la<br />

distancia semántica que existe <strong>en</strong>tre las palabras <strong>de</strong>l antece<strong>de</strong>nte y consecu<strong>en</strong>te <strong>de</strong> la regla.<br />

Esta distancia se basa <strong>en</strong> el conocimi<strong>en</strong>to estructural que aporta la jerarquía <strong>de</strong> conceptos <strong>en</strong><br />

WordNet. El principio es que mi<strong>en</strong>tras mayor sea la distancia <strong>en</strong>tre los términos <strong>de</strong> la regla<br />

mayor es el grado <strong>de</strong> novedad que ésta posee, esto <strong>de</strong>bido que la relación semántica <strong>en</strong>tre<br />

ellos no es muy frecu<strong>en</strong>te o poco común. Por ejemplo, <strong>en</strong> el contexto <strong>de</strong> informes <strong>de</strong> v<strong>en</strong>ta <strong>en</strong><br />

un supermercado, una regla <strong>de</strong>l tipo “Cerveza Pañales” podría interpretarse como “las<br />

personas que compran cervezas también compran pañales”, éste patrón pue<strong>de</strong> consi<strong>de</strong>rase<br />

más novedoso que el <strong>en</strong>tregado por “Cerveza Papas fritas”, <strong>de</strong>bido a que la distancia<br />

semántica que existe <strong>en</strong> el primer caso <strong>en</strong> WordNet es mayor que <strong>en</strong> el segundo. A<strong>de</strong>más, dado<br />

que los conceptos “cerveza” y “papas fritas” correspon<strong>de</strong>n a alim<strong>en</strong>tos que están<br />

semánticam<strong>en</strong>te más cercanos <strong>en</strong> WordNet se consi<strong>de</strong>ra que el conocimi<strong>en</strong>to que pue<strong>de</strong>n<br />

aportar no es muy relevante, <strong>de</strong>bido a la corta distancia semántica que los une.<br />

En este <strong>en</strong>foque, las reglas son <strong>de</strong>scubiertas <strong>de</strong>s<strong>de</strong> los textos vía el sistema DiscoTEX<br />

[26]. Este sistema utiliza una combinación <strong>de</strong> técnicas <strong>de</strong> Extracción <strong>de</strong> Información (IE) y<br />

Data <strong>Mining</strong>. Por medio <strong>de</strong> IE, los docum<strong>en</strong>tos <strong>de</strong> textos se transforman <strong>en</strong> docum<strong>en</strong>tos más<br />

estructurados para ser posteriorm<strong>en</strong>te minados con técnicas <strong>de</strong> Data <strong>Mining</strong> tradicionales.<br />

La forma <strong>de</strong> evaluación <strong>de</strong>l grado <strong>de</strong> novedad <strong>de</strong> una regla <strong>en</strong> DiscoTEX, está dado<br />

por la sigui<strong>en</strong>te estrategia: dada una regla <strong>de</strong>l tipo wi w j , <strong>en</strong> don<strong>de</strong> el antece<strong>de</strong>nte ( w i ) y el<br />

consecu<strong>en</strong>te ( w j ) son conceptos, la distancia semántica <strong>en</strong>tre estas dos palabras se <strong>de</strong>fine<br />

como:<br />

d(wi,wj)=Dist(P(wi,wj)) + K x Dir((P(wi,wj)),<br />

dón<strong>de</strong> P(wi,wj) es el peso <strong>de</strong>l camino más corto <strong>en</strong>tre wi y wj, Dist(P(wi,wj)) es la distancia<br />

<strong>de</strong>l camino p <strong>de</strong> acuerdo al esquema <strong>de</strong> peso (ver tabla 1), Dir(p) es el número <strong>de</strong> cambio <strong>de</strong><br />

direcciones a lo largo <strong>de</strong>l camino y K es una constante.<br />

Los pesos asignados <strong>en</strong> los caminos varían <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do si los movimi<strong>en</strong>tos <strong>de</strong>s<strong>de</strong> el<br />

antece<strong>de</strong>nte al consecu<strong>en</strong>te son atravesados <strong>en</strong> WordNet <strong>en</strong> forma horizontal, hacia arriba o<br />

hacia abajo, ya que estos ti<strong>en</strong><strong>en</strong> significados distintos. Una relación que pue<strong>de</strong> aportar un<br />

mayor grado <strong>de</strong> novedad se le asigna un mayor peso. Los difer<strong>en</strong>tes pesos asignados a cada<br />

dirección se pue<strong>de</strong>n ver <strong>en</strong> la tabla 1.<br />

31


Relación Dirección Peso<br />

Sinónimo, Atributo, Similar Horizontal 0,5<br />

Antónimo Horizontal 2,5<br />

Hiperónimo (Miembro|Parte| Es<strong>en</strong>cia) Merónimos Arriba 1,5<br />

Hipónimo (Miembro|Parte| Es<strong>en</strong>cia)<br />

Holónimo, Causa, Enlaces<br />

Abajo 1,5<br />

Tabla 1: Información <strong>de</strong> Dirección y Peso <strong>de</strong> las relaciones usadas <strong>en</strong> WordNet.<br />

Esta medida <strong>de</strong> distancia semántica propuesta es unidireccional, lo cual es<br />

conceptualm<strong>en</strong>te compatible con el hecho que las reglas ti<strong>en</strong><strong>en</strong> un antece<strong>de</strong>nte y un<br />

consecu<strong>en</strong>te, <strong>en</strong> don<strong>de</strong> wi w j ti<strong>en</strong>e una semántica distinta a w j wi<br />

.<br />

Con el fin <strong>de</strong> computar la distancia semántica <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong><br />

la regla, se utiliza un algoritmo que <strong>de</strong>termina el promedio <strong>de</strong> las distancias <strong>en</strong>tre los<br />

elem<strong>en</strong>tos individuales <strong>de</strong> una regla <strong>de</strong> acuerdo a los <strong>en</strong>laces exist<strong>en</strong>tes <strong>en</strong> WordNet.<br />

Posteriorm<strong>en</strong>te, las evaluaciones automáticas g<strong>en</strong>eradas por el algoritmo se comparan con<br />

evaluaciones realizadas por expertos <strong>de</strong> las mismas reglas. El objetivo <strong>de</strong> estos experim<strong>en</strong>tos<br />

es verificar si lo obt<strong>en</strong>ido con el algoritmo se correlaciona con los juicios <strong>de</strong> los humanos tan<br />

bi<strong>en</strong> como estos últimos se relacionan <strong>en</strong>tre sí. El mo<strong>de</strong>lo <strong>de</strong> Mooney [4] muestra que los<br />

resultados <strong>de</strong> las evaluaciones algoritmo-humano fueron similares a las evaluaciones humanohumano.<br />

El objetivo principal <strong>de</strong> este <strong>en</strong>foque es medir el grado <strong>de</strong> novedad <strong>de</strong> reglas obt<strong>en</strong>idas<br />

<strong>de</strong>s<strong>de</strong> textos basándose <strong>en</strong> el conocimi<strong>en</strong>to léxico aportado por WordNet. Sin embargo, la<br />

estrategia <strong>de</strong> evaluación requiere <strong>de</strong> una fu<strong>en</strong>te externa <strong>de</strong> conocimi<strong>en</strong>to y consecu<strong>en</strong>tem<strong>en</strong>te<br />

es altam<strong>en</strong>te <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te su organización. Otro inconv<strong>en</strong>i<strong>en</strong>te se pres<strong>en</strong>ta cuando el<br />

antece<strong>de</strong>nte o el consecu<strong>en</strong>te <strong>de</strong> la regla conti<strong>en</strong><strong>en</strong> términos que no exist<strong>en</strong> <strong>en</strong> WordNet. Esto<br />

origina que el método evalúe con un alto grado <strong>de</strong> interés a conceptos no exist<strong>en</strong>tes <strong>en</strong><br />

WordNet, <strong>de</strong>bido a que la distancia <strong>en</strong>tre ellos no existe, se asume muy gran<strong>de</strong>. No obstante,<br />

para los humanos estos patrones podrían no repres<strong>en</strong>tar interés alguno.<br />

Un <strong>en</strong>foque que no utiliza recursos externos <strong>de</strong> conocimi<strong>en</strong>to es propuesto por<br />

Toussaint et al. [6, 7, 20]. Aquí, se pres<strong>en</strong>tan dos métodos <strong>de</strong> clasificación <strong>de</strong> reglas <strong>de</strong><br />

asociación, uno basado <strong>en</strong> medidas numéricas <strong>de</strong> calidad y el otro basado <strong>en</strong> el conocimi<strong>en</strong>to<br />

<strong>de</strong>l dominio. El primero incorpora nuevas medidas numéricas que mi<strong>de</strong>n características <strong>de</strong> las<br />

reglas <strong>de</strong> asociación que no son contempladas por el support o confi<strong>de</strong>nce. En el segundo<br />

método, se mi<strong>de</strong> el grado <strong>de</strong> interés <strong>de</strong> acuerdo a la ubicación jerárquica <strong>de</strong>l antece<strong>de</strong>nte y el<br />

consecu<strong>en</strong>te <strong>de</strong> la regla <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong>l dominio, el cual se repres<strong>en</strong>ta como un conjunto<br />

finito y parcialm<strong>en</strong>te or<strong>de</strong>nado <strong>de</strong> términos que establece una relación <strong>de</strong> g<strong>en</strong>eralización. En<br />

ambos métodos se realiza un ranking <strong>de</strong> las reglas <strong>de</strong>scubiertas.<br />

Debido a la dificultad <strong>de</strong> las medidas tradicionales para capturar el grado <strong>de</strong> interés, <strong>en</strong><br />

el primer método se propon<strong>en</strong> cinco métricas adicionales al “support” y “confi<strong>de</strong>nce”. Dada<br />

una regla A B , las medidas se <strong>de</strong>fin<strong>en</strong> <strong>en</strong> base a información probabilística don<strong>de</strong> P(A) es<br />

la probabilidad <strong>de</strong>l número <strong>de</strong> conjuntos <strong>de</strong> textos que conti<strong>en</strong><strong>en</strong> el término A, y P(A B)<br />

es<br />

la probabilidad <strong>de</strong>l número <strong>de</strong> conjuntos <strong>de</strong> textos que conti<strong>en</strong><strong>en</strong> tanto a A como a B. Aquí se<br />

distingu<strong>en</strong> tres distribuciones <strong>de</strong> términos que resultan ser interes<strong>en</strong>tes para efectos <strong>de</strong> minería<br />

32


<strong>de</strong> textos y las cuales no pue<strong>de</strong>n distinguirse por medio <strong>de</strong>l “support” y “confi<strong>de</strong>nce”. Don<strong>de</strong><br />

D(A) y D(B) correspon<strong>de</strong>n al conjunto <strong>de</strong> textos que conti<strong>en</strong><strong>en</strong> los términos A y B,<br />

respectivam<strong>en</strong>te (ver figura 11).<br />

Corpus <strong>de</strong> <strong>Text</strong>os<br />

D(A)<br />

D(B)<br />

Corpus <strong>de</strong> <strong>Text</strong>os Corpus <strong>de</strong> <strong>Text</strong>os<br />

D(B)<br />

(a) (b) (c)<br />

Figura 11: Mejores casos <strong>de</strong> variación <strong>de</strong> D(A) y D(B).<br />

En el caso <strong>de</strong> la figura 11(a) las probabilida<strong>de</strong>s <strong>de</strong> distribución P(A) y P(B) son<br />

altas, lo cual g<strong>en</strong>era reglas que no <strong>en</strong>tregan nuevo conocimi<strong>en</strong>to, si no más bi<strong>en</strong><br />

reglas que <strong>de</strong>notan conceptos g<strong>en</strong>éricos que ya son conocidos.<br />

En el caso <strong>de</strong> la figura 11(b), la probabilidad P(A) es baja y P(B) es alta. Estos<br />

tipos <strong>de</strong> reglas pue<strong>de</strong>n ser más interesantes y se pue<strong>de</strong>n interpretar como “los<br />

textos que incluy<strong>en</strong> términos <strong>de</strong> A ti<strong>en</strong><strong>de</strong>n a incluir términos <strong>de</strong> B”.<br />

En el cado <strong>de</strong> la figura 11(c), tanto P(A) como P(B) son bajas y sobrepuestas, es<br />

<strong>de</strong>cir, los términos ocurr<strong>en</strong> raram<strong>en</strong>te <strong>en</strong> los textos y ocurr<strong>en</strong> <strong>en</strong> conjunto. Esta<br />

distribución es la que pue<strong>de</strong> <strong>en</strong>tregar reglas más interesantes y por <strong>en</strong><strong>de</strong>, es el<br />

conjunto más importante <strong>de</strong> los tres casos.<br />

Luego, la evaluación <strong>de</strong> las reglas <strong>de</strong>scubiertas <strong>en</strong> la tarea <strong>de</strong> minería <strong>de</strong> textos se<br />

lleva a cabo consi<strong>de</strong>rando los sigui<strong>en</strong>tes cinco criterios:<br />

1. Interés: repres<strong>en</strong>ta el grado <strong>de</strong> in<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>en</strong>tre los sets <strong>de</strong> términos A y B, y se <strong>de</strong>fine<br />

como interés ( A B)<br />

P(<br />

A B)<br />

/ P(<br />

A)<br />

P(<br />

B)<br />

. Este criterio <strong>de</strong>termina si una regla<br />

pert<strong>en</strong>ece al caso (c) <strong>de</strong> la figura 11, es <strong>de</strong>cir, los términos raram<strong>en</strong>te aparec<strong>en</strong> <strong>en</strong> los<br />

textos y a<strong>de</strong>más ocurr<strong>en</strong> <strong>en</strong> conjunto.<br />

2. Convicción: permite seleccionar <strong>en</strong>tre las reglas A B y B A la que t<strong>en</strong>ga m<strong>en</strong>os<br />

contraejemplos. Es <strong>de</strong>cir convicción ( A B)<br />

( P(<br />

A)<br />

P(<br />

B))<br />

/ P(<br />

A B)<br />

. Esta medida<br />

ubica <strong>en</strong> las primeras posiciones <strong>de</strong>l ranking a las reglas que correspon<strong>de</strong>n al caso (c) <strong>de</strong> la<br />

figura 11.<br />

3. Dep<strong>en</strong><strong>de</strong>ncia: <strong>de</strong>fine la distancia <strong>en</strong>tre el confi<strong>de</strong>nce <strong>de</strong> la regla y el caso <strong>de</strong><br />

in<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia, se <strong>de</strong>fine como <strong>de</strong>p<strong>en</strong><strong>de</strong>ncia ( A B)<br />

|<br />

P(<br />

B / A)<br />

P(<br />

A)<br />

| .La <strong>de</strong>p<strong>en</strong><strong>de</strong>ncia<br />

ti<strong>en</strong>e un comportami<strong>en</strong>to similar a los casos (a) y (b) <strong>de</strong> la figura 11.<br />

33<br />

D(A)<br />

D(A)<br />

D(B)


4. Novedad: se <strong>de</strong>fine como novedad ( A B)<br />

P(<br />

B A)<br />

P(<br />

A)<br />

P(<br />

B)<br />

, lo que es<br />

equival<strong>en</strong>te a novedad ( A B)<br />

=<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia ( A B)<br />

P(<br />

B)<br />

. Luego a valores bajos <strong>de</strong><br />

P(B) la regla pres<strong>en</strong>tará un grado <strong>de</strong> novedad m<strong>en</strong>or, lo cual correspon<strong>de</strong> a los casos (b) y<br />

(c) <strong>de</strong> la figura 11.<br />

5. Satisfacción: se <strong>de</strong>fine como satisfacción ( A B)<br />

P(<br />

B)<br />

P(<br />

B<br />

| A)<br />

/ P(<br />

B)<br />

. Con<br />

este criterio una regla con bajo P(B) ti<strong>en</strong>e un valor alto <strong>de</strong> satisfacción, con lo cual se logra<br />

distinguir las reglas <strong>de</strong>l caso(a) a las <strong>de</strong>l caso (b) <strong>en</strong> la figura 11.<br />

Una vez g<strong>en</strong>eradas las reglas <strong>de</strong> asociación, estas se evalúan mediante los criterios<br />

anteriores, es <strong>de</strong>cir se obti<strong>en</strong><strong>en</strong> cinco valores numéricos para cada regla. Posteriorm<strong>en</strong>te un<br />

evaluador humano toma el resultado <strong>de</strong> las evaluaciones y <strong>de</strong>ci<strong>de</strong> cuales <strong>de</strong> las cinco métricas<br />

t<strong>en</strong>drán mayor pon<strong>de</strong>ración.<br />

El segundo método propuesto por Toussaint et al. [6, 7, 20] evalúa la conformidad<br />

<strong>de</strong> las reglas <strong>de</strong> asociación con un mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to específico. Este organiza los<br />

conceptos mediante una abstracción <strong>de</strong> la realidad <strong>en</strong> don<strong>de</strong> se <strong>de</strong>sarrollan estas tareas. El<br />

mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to <strong>de</strong>l dominio se construye por medio <strong>de</strong>l Análisis Formal <strong>de</strong><br />

Conceptos (Formal Concept Analysis o FCA). FCA es una teoría formal utilizada como<br />

método <strong>de</strong> apr<strong>en</strong>dizaje, por medio la cual, se pue<strong>de</strong>n extraer estructuras conceptuales a partir<br />

<strong>de</strong> un conjunto <strong>de</strong> datos. Esta técnica <strong>de</strong>fine un “concepto” como una unidad <strong>de</strong> p<strong>en</strong>sami<strong>en</strong>tos<br />

que consta <strong>de</strong> dos partes: ext<strong>en</strong>sión e int<strong>en</strong>ción. La ext<strong>en</strong>sión cubre todos los objetos que<br />

pert<strong>en</strong>ec<strong>en</strong> al concepto, y la int<strong>en</strong>ción compr<strong>en</strong><strong>de</strong> todos los atributos válidos <strong>de</strong> los objetos <strong>de</strong><br />

un concepto [14, 31, 42].<br />

El mo<strong>de</strong>lo propuesto por Toussaint [6, 7, 20] utiliza tres unida<strong>de</strong>s fundam<strong>en</strong>tales:<br />

1) Contexto Formal: una tupla (G, M, I) es llamada Contexto Formal si G y M son conjuntos,<br />

y I G M es una relación binaria <strong>en</strong>tre G y M. Se <strong>de</strong>nomina Objetos a los elem<strong>en</strong>tos <strong>de</strong> G,<br />

Atributos a los elem<strong>en</strong>tos <strong>de</strong> M, e Inci<strong>de</strong>ncia <strong>de</strong>l contexto a los elem<strong>en</strong>tos <strong>de</strong> la relación I.<br />

Para A G se <strong>de</strong>fine:<br />

A ' { m M | ( g,<br />

m)<br />

I g A}<br />

Y dualm<strong>en</strong>te, para B M ,<br />

B ' { g G(<br />

g,<br />

m)<br />

I m B}<br />

2) Concepto Formal: dado un Contexto Formal (G, M, I), un par (A, B) es un Concepto<br />

Formal si y solo si:<br />

A G,<br />

B M , A'<br />

B,<br />

A B'.<br />

Don<strong>de</strong> el conjunto A se <strong>de</strong>nomina como la “ext<strong>en</strong>sión” y el conjunto B como la<br />

“int<strong>en</strong>ción” <strong>de</strong>l concepto (A, B). En otras palabras, A es el conjunto <strong>de</strong> todos los objetos que<br />

ti<strong>en</strong><strong>en</strong> los atributos <strong>de</strong> B, y B es el conjunto <strong>de</strong> todos los atributos que son válidos para los<br />

objetos <strong>de</strong> A.<br />

34


3) Lattice Conceptual: Un Lattice <strong>de</strong> Conceptos consiste <strong>en</strong> el conjunto <strong>de</strong> conceptos<br />

formales <strong>de</strong> un contexto formal y una relación <strong>de</strong> or<strong>de</strong>n <strong>en</strong>tre ellos. En el mo<strong>de</strong>lo <strong>de</strong> Toussaint<br />

[6, 7, 20] la relación <strong>de</strong> or<strong>de</strong>n correspon<strong>de</strong> a una relación <strong>de</strong> g<strong>en</strong>eralización <strong>en</strong>tre los<br />

conceptos <strong>de</strong>l lattice conceptual.<br />

Las tres unida<strong>de</strong>s antes m<strong>en</strong>cionadas provi<strong>en</strong><strong>en</strong> <strong>de</strong> FCA, y son utilizadas para construir<br />

el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to <strong>en</strong> el <strong>en</strong>foque propuesto por Toussaint et al. [6, 7, 20]. El mo<strong>de</strong>lo<br />

es utilizado para medir el grado <strong>de</strong> interés <strong>de</strong> las reglas <strong>de</strong>scubiertas.<br />

El mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to <strong>de</strong>notado por ( K , )<br />

, repres<strong>en</strong>ta las relaciones <strong>de</strong><br />

g<strong>en</strong>eralización/especialización <strong>en</strong>tre los conceptos obt<strong>en</strong>idos <strong>de</strong>s<strong>de</strong> el corpus <strong>de</strong> textos. El<br />

mo<strong>de</strong>lo correspon<strong>de</strong> a un conjunto finito y parcialm<strong>en</strong>te or<strong>de</strong>nado K <strong>de</strong> términos. Para<br />

cualquier término A, B K,<br />

A B si cualquier instancia <strong>de</strong> A es también instancia <strong>de</strong> B. La<br />

relación <strong>de</strong>fine el or<strong>de</strong>n parcial <strong>en</strong>tre los términos que <strong>de</strong>nota implícitam<strong>en</strong>te una relación<br />

<strong>de</strong> g<strong>en</strong>eralización/especialización <strong>en</strong>tre ellos: A es más específico que B, y B es más g<strong>en</strong>eral<br />

que A. Formalm<strong>en</strong>te ( K , )<br />

es un grafo dirigido, con K nodos como vértices (términos<br />

claves) y la relación <strong>de</strong>fine las aristas <strong>de</strong>l grafo [6, 7, 20].<br />

Toussaint et al. [6, 7, 20] propon<strong>en</strong> una nueva medida para medir el grado <strong>de</strong> interés<br />

<strong>de</strong> las reglas <strong>de</strong>scubiertas. Esta medida se <strong>de</strong>nomina “conformidad” y esta directam<strong>en</strong>te<br />

relacionada con el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to construido a partir <strong>de</strong>l corpus <strong>de</strong> textos, <strong>en</strong><br />

términos simples, esta nueva medida mi<strong>de</strong> la relación <strong>de</strong> g<strong>en</strong>eralización/especialización<br />

exist<strong>en</strong>te <strong>en</strong>tre dos términos y es utilizada para medir el grado <strong>de</strong> interés <strong>de</strong> las reglas<br />

g<strong>en</strong>eradas.<br />

Sean k1, k2 <strong>en</strong> K, la medida <strong>de</strong> conformidad <strong>de</strong> la regla k1→k2 con respecto al mo<strong>de</strong>lo<br />

<strong>de</strong> conocimi<strong>en</strong>to ( K , )<br />

correspon<strong>de</strong> a la probabilidad <strong>de</strong> transición <strong>de</strong> <strong>en</strong>contrar un camino<br />

<strong>de</strong>s<strong>de</strong> k1 hacia k2 <strong>en</strong> el grafo dirigido <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to ( K , )<br />

. Este camino pue<strong>de</strong><br />

ser compuesto por varias aristas y <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la distancia <strong>en</strong>tre k1 y k2 <strong>en</strong> el mo<strong>de</strong>lo ( K , )<br />

.<br />

La probabilidad <strong>de</strong> transición <strong>en</strong>tre un término ki y kj <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l camino más corto <strong>en</strong>tre ki<br />

y kj, <strong>de</strong>nominada d(ki, kj) <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to. Aquí se distingu<strong>en</strong> dos casos<br />

particulares:<br />

1) La distancia <strong>de</strong> un ciclo <strong>en</strong> un término es igual a uno (d(ki , ki)=1), como una forma<br />

<strong>de</strong> consi<strong>de</strong>rar la reflexividad <strong>de</strong> la especialización <strong>de</strong> la relación y evitar altas<br />

probabilida<strong>de</strong>s anormales <strong>en</strong> el caso que no existan aristas sali<strong>en</strong>tes <strong>de</strong>s<strong>de</strong> un<br />

vértice consultado.<br />

2) Cuando no existe un camino <strong>de</strong>s<strong>de</strong> ki hacia kj, <strong>en</strong>tonces d(ki , kj) = 2N +1, don<strong>de</strong> N<br />

es la cardinalidad <strong>de</strong>l conjunto <strong>de</strong> términos K.<br />

Dada una regla k1→k2, Cm(ki , ki) <strong>de</strong>nota la conformidad que existe <strong>en</strong>tre el<br />

antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> la regla. Ésta <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> la distancia que existe <strong>en</strong>tre k1 y k2<br />

<strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to y un factor <strong>de</strong> normalización <strong>de</strong>notado por δ(ki). Luego la<br />

probabilidad <strong>de</strong> transición <strong>de</strong> una regla simple se calcula como:<br />

35


Cm(ki , ki)=[ d(ki , ki) x δ(ki)] -1<br />

Don<strong>de</strong> el factor <strong>de</strong> normalización correspon<strong>de</strong> a δ(ki)= x <br />

36<br />

1<br />

( k , x)<br />

K<br />

d i<br />

Una vez creado el mo<strong>de</strong>lo, el principio <strong>de</strong> conformidad <strong>de</strong> las reglas <strong>de</strong> asociación<br />

consiste <strong>en</strong> asignar altas pon<strong>de</strong>raciones a cualquier regla A B que es una “traducción”<br />

directa <strong>de</strong> la relación A B exist<strong>en</strong>te <strong>en</strong>tre los términos A y B <strong>en</strong> el dominio <strong>de</strong> conocimi<strong>en</strong>to<br />

( K , )<br />

. Por ejemplo si el concepto “fruta” es más g<strong>en</strong>eral que “manzana” (manzana <br />

fruta), <strong>en</strong>tonces la regla <strong>de</strong> asociación “manzana fruta” ti<strong>en</strong>e una alta pon<strong>de</strong>ración <strong>de</strong><br />

conformidad <strong>de</strong>bido a que es una copia <strong>de</strong> una unidad <strong>de</strong> conocimi<strong>en</strong>to exist<strong>en</strong>te <strong>en</strong> el mo<strong>de</strong>lo<br />

<strong>de</strong> conocimi<strong>en</strong>to. Contrariam<strong>en</strong>te, una regla “pie <strong>de</strong> limón Chocolate” pot<strong>en</strong>cialm<strong>en</strong>te<br />

expresa una relación interesante <strong>en</strong>tre los dos términos ya que no existe ninguna relación <strong>de</strong><br />

g<strong>en</strong>eralización/especialización <strong>en</strong>tre los dos términos, por lo tanto recibe una conformidad<br />

baja. Por lo tanto el grado <strong>de</strong> interés es inverso la conformidad.<br />

En la tabla 2 se muestran los features <strong>en</strong>contrados <strong>en</strong> un corpus <strong>de</strong> seis docum<strong>en</strong>tos <strong>en</strong><br />

un <strong>de</strong>terminado dominio, los cuales serán utilizados a modo <strong>de</strong> ejemplo para ilustrar la<br />

construcción <strong>de</strong> un Lattice Conceptual.<br />

docum<strong>en</strong>to features<br />

d1 a c d<br />

d2 b c e<br />

d3 a b c e<br />

d4 b e<br />

d5 a b c e<br />

b c e<br />

d6<br />

Tabla 2: Ejemplo <strong>de</strong> Features Descubiertos.<br />

En los seis docum<strong>en</strong>tos se <strong>en</strong>contraron 19 features. Cada uno <strong>de</strong> ellos pue<strong>de</strong> ser<br />

cualquiera <strong>de</strong> los sigui<strong>en</strong>tes :{a, b, c, d, e}. Este conjunto correspon<strong>de</strong> a los atributos <strong>de</strong>l<br />

Contexto Formal, y los seis docum<strong>en</strong>tos a los objetos, tal como se muestra <strong>en</strong> la tabla 3.<br />

Objetos<br />

a b c d e<br />

d1 x x x<br />

d2 x x x<br />

d3 x x x x<br />

d4 x x<br />

d5 x x x x<br />

d6 x x x<br />

Tabla 3: Contexto Formal<br />

Atributos


A partir <strong>de</strong>l contexto formal <strong>de</strong> la tabla 3 se g<strong>en</strong>era el Lattice Conceptual <strong>de</strong> la figura<br />

12, la cual consta <strong>de</strong> 8 conceptos.<br />

C1<br />

{c} {b, e}<br />

C2<br />

C3<br />

{}<br />

{d4}<br />

{a}<br />

{}<br />

{d}<br />

{d1}<br />

C4<br />

C6<br />

{}<br />

{d1, d2, d3, d4, d5, d6}<br />

C8<br />

{a, b, c, d, e}<br />

{ }<br />

Figura 12: Lattice Conceptual<br />

Los conceptos <strong>de</strong>l Lattice Conceptual <strong>de</strong> la figura 12 pose<strong>en</strong> atributos y objetos, tal<br />

como se muestra <strong>en</strong> la tabla 4.<br />

Concepto Atributos Objetos<br />

C1 {} {d1, d2, d3, d4, d5, d6}<br />

C2 {c} { }<br />

C3 {b, e} {d4}<br />

C4 {a} { }<br />

C5 { } {d2, d6}<br />

C6 { d} {d1}<br />

C7 { } {d3, d5}<br />

C8 {a, b, c, d, e} {}<br />

Tabla 4: Conceptos <strong>de</strong>l Lattice Conceptual<br />

Los conceptos C5 y C7 se eliminan <strong>de</strong>l Lattice Conceptual <strong>de</strong>bido a que no pose<strong>en</strong><br />

atributos propios, ya que ti<strong>en</strong><strong>en</strong> sólo los que son heredados <strong>de</strong> sus súper conceptos, es <strong>de</strong>cir,<br />

<strong>de</strong> sus nodos padres. Los conceptos C1 y C8 también son eliminados porque no aportan mayor<br />

conocimi<strong>en</strong>to al mo<strong>de</strong>lo.<br />

Las reglas <strong>de</strong> asociación tanto <strong>en</strong> el antece<strong>de</strong>nte como <strong>en</strong> el consecu<strong>en</strong>te pose<strong>en</strong> sólo<br />

términos, los cuales correspon<strong>de</strong>n a alguno <strong>de</strong> los atributos pres<strong>en</strong>tes <strong>en</strong> el Lattice Conceptual.<br />

Por lo anterior, para obt<strong>en</strong>er la estructura conceptual <strong>de</strong>l dominio se manti<strong>en</strong><strong>en</strong> sólo los<br />

atributos, y un atributo por nodo. La estructura conceptual <strong>de</strong>l contexto formal <strong>de</strong> la tabla 4<br />

queda configurada tal como se muestra <strong>en</strong> la figura 13.<br />

37<br />

C5<br />

C7<br />

{ }<br />

{d2, d6}<br />

{ }<br />

{d3, d5}


a<br />

d<br />

c<br />

Figura 13: Lattice Conceptual<br />

Esta estructura conceptual repres<strong>en</strong>ta relaciones <strong>de</strong> g<strong>en</strong>eralización/especialización<br />

<strong>en</strong>tre sus elem<strong>en</strong>tos. Por ejemplo, el nodo c es más g<strong>en</strong>eral que el nodo a, es <strong>de</strong>cir a c, lo<br />

que implica que cada instancia <strong>de</strong> a también es instancia <strong>de</strong> c. Los elem<strong>en</strong>tos que no posean<br />

vértices <strong>en</strong>tre sí no pose<strong>en</strong> ningún tipo <strong>de</strong> relación <strong>de</strong> <strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>en</strong>tre sí, tal es el caso <strong>de</strong> los<br />

nodos b con e.<br />

En este <strong>en</strong>foque, la g<strong>en</strong>eración <strong>de</strong> los conjuntos cerrados frecu<strong>en</strong>tes se realiza por<br />

medio <strong>de</strong>l algoritmo Aclose [29,30], el cual recibe como <strong>en</strong>trada los features <strong>en</strong>contrados <strong>en</strong><br />

el corpus <strong>de</strong> textos. Para g<strong>en</strong>erar las reglas se utilizó el algoritmo <strong>de</strong> g<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong><br />

asociación informativas pres<strong>en</strong>tado por Toussaint et al. [6, 7, 20]. Este algoritmo se utiliza<br />

para eliminar redundancia <strong>en</strong> las reglas <strong>de</strong> asociación.<br />

Se dice que una regla <strong>de</strong> asociación R: A B es informativa ssi no existe otra regla<br />

R’: A’ B’ tal que:<br />

support(R) = support(R’)<br />

confi<strong>de</strong>nce (R) = confi<strong>de</strong>nce(R’)<br />

A A’ y B B’<br />

b<br />

El algoritmo <strong>de</strong> g<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong> asociación informativas se aplica una vez que<br />

se han obt<strong>en</strong>ido los conjuntos cerrados frecu<strong>en</strong>tes. Las reglas g<strong>en</strong>eradas son <strong>de</strong>l tipo A B/ A.<br />

Estas se obti<strong>en</strong><strong>en</strong> eliminando <strong>de</strong>l conjunto cerrado frecu<strong>en</strong>te B los términos que se <strong>en</strong>cu<strong>en</strong>tran<br />

<strong>en</strong> A. La estructura g<strong>en</strong>eral <strong>de</strong>l algoritmo para g<strong>en</strong>erar reglas <strong>de</strong> asociación informativas es la<br />

sigui<strong>en</strong>te:<br />

Entrada:<br />

K: conjunto <strong>de</strong> tríos (G: conjunto g<strong>en</strong>erador, support, FG: Conjunto cerrado)<br />

resultantes <strong>de</strong> la ejecución <strong>de</strong> Aclose.<br />

Salida:<br />

RA: conjunto <strong>de</strong> reglas <strong>de</strong> asociación <strong>de</strong>scubiertas.<br />

Por cada Conjunto g<strong>en</strong>erador G K hacer<br />

Encontrar conjuntos cerrados candidatos CG = {FG / G FG};<br />

Or<strong>de</strong>nar el conjunto CG por cardinalidad creci<strong>en</strong>te;<br />

Por cada conjunto cerrado FG CG hacer<br />

si confi<strong>de</strong>nce (r: G FG /G ) ≥ minconfi<strong>de</strong>nce <strong>en</strong>tonces<br />

agregar regla r a RA<br />

38<br />

e


En este algoritmo los valores <strong>de</strong>l minsupport y minconfi<strong>de</strong>nce son obt<strong>en</strong>idos<br />

experim<strong>en</strong>talm<strong>en</strong>te.<br />

Para ilustrar la g<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong> asociación al aplicar el algoritmo Aclose <strong>en</strong> el<br />

ejemplo <strong>de</strong> la tabla 2 con minsupport=2 y minconfi<strong>de</strong>nce=0.4 se obti<strong>en</strong><strong>en</strong> los conjuntos<br />

cerrados frecu<strong>en</strong>tes <strong>de</strong> la tabla 5.<br />

G<strong>en</strong>erador Closure Support<br />

{a} {a, c} 3<br />

{b} {b, e} 5<br />

{c} {c} 5<br />

{e} {b, e} 5<br />

{a, e} {a, c, b, e} 2<br />

{a, b} {c, b, e} 2<br />

{b, c} {c, b, e} 4<br />

{c, e} {a, c, b, e} 4<br />

Tabla 5: Conjuntos cerrados <strong>de</strong>l ejemplo <strong>de</strong> la tabla 3.<br />

Los conjuntos cerrados <strong>de</strong> la tabla 5 correspon<strong>de</strong>n a la <strong>en</strong>trada <strong>de</strong>l algoritmo <strong>de</strong><br />

g<strong>en</strong>eración <strong>de</strong> reglas informativas. Por ejemplo, el g<strong>en</strong>erador “a” está pres<strong>en</strong>te <strong>en</strong> dos<br />

conjuntos cerrados: {a, c} y {a, b, c, e}. Con el primer conjunto cerrado {a, c} se g<strong>en</strong>era la<br />

regla a→ c, cuyo confi<strong>de</strong>nce correspon<strong>de</strong> a support ({a, c})/support(a) = 3/3 =1.<br />

Como el confi<strong>de</strong>nce es mayor a 0.4 la regla <strong>de</strong> asociación g<strong>en</strong>erada no se elimina. Por<br />

otro lado, con el conjunto cerrado {a, b, c, e} se obti<strong>en</strong>e la regla a→ {a, b, c, e} cuyo<br />

confi<strong>de</strong>nce es 2/3 = 0,6. Esta regla tampoco es eliminada porque ti<strong>en</strong>e un confi<strong>de</strong>nce mayor al<br />

umbral <strong>de</strong> minconfi<strong>de</strong>nce. En la tabla 6 se muestran todas las reglas g<strong>en</strong>eradas a partir <strong>de</strong> la<br />

tabla 5.<br />

G Clousure Regla Confi<strong>de</strong>nce G Clousure Regla Confi<strong>de</strong>nce<br />

a {a,c} a → c 3/3 b {b,e} b → e 5/5<br />

{a,b,c,e} a → {b,c,e} 2/3 {b,c,e} b → {c,e} 4/5<br />

{a,b,c,e} b → {a,c,e} 2/5<br />

G Clousure Regla Confi<strong>de</strong>nce G Clousure Regla Confi<strong>de</strong>nce<br />

c {c} e {b,e} e → b 5/5<br />

{a,c} c → a 3/5 {b,c,e} e → {b,c} 4/5<br />

{b,c,e} c → {b,e} 4/5 {a,b,c,e} e → {a,b,c} 2/5<br />

{a,b,c,e} c → {a,b,e} 2/5<br />

G Clousure Regla Confi<strong>de</strong>nce G Clousure Regla Confi<strong>de</strong>nce<br />

{a,e} {a,b,c,e} {a,e} → {b,c} 2/2 {a,b} {a,b,c,e} {a,b} → {c,e} 2/2<br />

G Clousure Regla Confi<strong>de</strong>nce G Clousure Regla Confi<strong>de</strong>nce<br />

{b,c} {b,c,e} {b,c} → e 4/4 {c,e} {b,c,e} {c,e} → b 4/4<br />

{a,b,c,e} {b,c} → {a,e} 2/4 {a,b,c,e} {c,e} → {a,b} 2/4<br />

Figura 14: <strong>Reglas</strong> <strong>de</strong> asociación informativas g<strong>en</strong>eradas a partir <strong>de</strong> la tabla 2.<br />

39


Como se observa <strong>en</strong> la figura 14, se g<strong>en</strong>eraron 17 reglas <strong>de</strong> asociación que se resum<strong>en</strong><br />

<strong>en</strong> la tabla 6.<br />

I<strong>de</strong>ntificador Regla <strong>de</strong> Confi<strong>de</strong>nce<br />

regla<br />

asociación<br />

r1 a → c 1<br />

r2 a → {b,c,e} 0,6<br />

r3 b → e 1<br />

r4 b → {c,e} 0,8<br />

r5 b → {a,c,e} 0,4<br />

r 6 c → a 0,6<br />

r 7 c → {b,e} 0,8<br />

r 8 c → {a,b,e} 0,4<br />

r 9 e → b 1<br />

r 10 e → {b,c} 0,8<br />

r 11 e → {a,b,c} 0,4<br />

r 12 {a,e} → {b,c} 1<br />

r 13 {a,b} → {c,e} 1<br />

r 14 {b,c} → {e} 1<br />

r 15 {b,c} → {a,e} 0,5<br />

r 16 {c,e} → b 1<br />

r 17 {c,e} → {a,b} 0,5<br />

Tabla 6: <strong>Reglas</strong> <strong>de</strong> asociación <strong>de</strong>scubiertas ejemplo tabla 2.<br />

A modo <strong>de</strong> ilustración, <strong>en</strong> la figura 15 se muestra un mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to, don<strong>de</strong><br />

cada arista <strong>en</strong>tre dos nodos (términos) repres<strong>en</strong>ta una relación <strong>de</strong><br />

g<strong>en</strong>eralización/especialización <strong>en</strong>tre ellos. La conformidad se calcula para dos casos<br />

específicos: <strong>en</strong>tre “a” y “c” don<strong>de</strong> existe un camino <strong>en</strong>tre los nodos, y <strong>en</strong>tre “c” y “d” don<strong>de</strong><br />

no existe un camino.<br />

d<br />

Figura 15: Ejemplo <strong>de</strong> un Mo<strong>de</strong>lo <strong>de</strong> Conocimi<strong>en</strong>to.<br />

La conformidad <strong>en</strong>tre “a” y “c” se calcula como:<br />

Cm(a,c)=<br />

=<br />

a<br />

<br />

d<br />

( a,<br />

c)<br />

<br />

e<br />

<br />

x{<br />

a,<br />

b,<br />

c,<br />

d , e}<br />

1 <br />

<br />

d(<br />

a,<br />

x)<br />

<br />

40<br />

1<br />

1 1 1 1 1 <br />

d<br />

( a,<br />

c)<br />

<br />

( , ) ( , ) ( , ) ( , ) ( , )<br />

<br />

d a a d a b d a c d a d d a e <br />

b<br />

c<br />

1


=<br />

41<br />

1<br />

1<br />

1 1 1 1 <br />

2<br />

3<br />

<br />

1 1 3 1 2<br />

= = 0.09<br />

<br />

<br />

23<br />

y la conformidad <strong>en</strong>tre “c” y “d” se calcula <strong>de</strong> la sigui<strong>en</strong>te manera:<br />

Cm(c,d) =<br />

=<br />

=<br />

<br />

d<br />

( c,<br />

d)<br />

<br />

<br />

x{<br />

a,<br />

b,<br />

c,<br />

d , e}<br />

1 <br />

<br />

d(<br />

c,<br />

x)<br />

<br />

1<br />

1 1 1 1 1 <br />

d<br />

( c,<br />

d)<br />

<br />

( , ) ( , ) ( , ) ( , ) ( , )<br />

<br />

d c a d c b d c c d c d d c e <br />

1<br />

1 1 1 1 1 <br />

1<br />

11<br />

<br />

11 11 1 11 11<br />

= = 0.07<br />

<br />

<br />

15<br />

Como se pue<strong>de</strong> observar, la conformidad <strong>en</strong>tre “a” y “c” es mayor que la conformidad<br />

que existe <strong>en</strong>tre “c” y “d”. Esto significa que los elem<strong>en</strong>tos “a” y “c” pose<strong>en</strong> una relación <strong>de</strong><br />

g<strong>en</strong>eralización/especialización mayor que la exist<strong>en</strong>te <strong>en</strong>tre “c” y “d”. Esto se <strong>de</strong>be a que<br />

<strong>en</strong>tre “a” y “c” existe un camino <strong>en</strong> el mo<strong>de</strong>lo que une los nodos, <strong>en</strong> cambio, <strong>en</strong>tre “c” y “d”<br />

no existe un camino que los conecte.<br />

En g<strong>en</strong>eral, disminuye el valor <strong>de</strong> conformidad <strong>en</strong>tre dos elem<strong>en</strong>tos mi<strong>en</strong>tras el<br />

camino que los una sea más largo o no exista un camino que los una. Si el valor <strong>de</strong><br />

conformidad ti<strong>en</strong>e una alta pon<strong>de</strong>ración se <strong>de</strong>be a que es una copia <strong>de</strong> una unidad <strong>de</strong><br />

conocimi<strong>en</strong>to exist<strong>en</strong>te <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to. Contrariam<strong>en</strong>te, si el valor ti<strong>en</strong>e una<br />

baja pon<strong>de</strong>ración pot<strong>en</strong>cialm<strong>en</strong>te expresa una relación interesante <strong>en</strong>tre los dos términos ya<br />

que posiblem<strong>en</strong>te no existe ninguna relación <strong>de</strong> g<strong>en</strong>eralización/especialización <strong>en</strong>tre los dos<br />

términos. Por lo tanto, el grado <strong>de</strong> interés es inverso a la conformidad es <strong>de</strong>cir, “mi<strong>en</strong>tras<br />

m<strong>en</strong>or sea conformidad <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> la regla <strong>de</strong> asociación,<br />

mayor es el grado <strong>de</strong> interés que aporta la regla <strong>de</strong> asociación”.<br />

En el cálculo <strong>de</strong> la conformidad <strong>de</strong> las reglas <strong>de</strong> asociación <strong>de</strong>scubiertas se distingu<strong>en</strong><br />

cuatro tipos <strong>de</strong> reglas:<br />

a) <strong>Reglas</strong> Simples<br />

El calculo <strong>de</strong> conformidad <strong>de</strong> este tipo <strong>de</strong> reglas (k1→k2), se realiza buscando <strong>en</strong> la<br />

matriz <strong>de</strong> conformida<strong>de</strong>s <strong>en</strong> la fila el término k1 y luego <strong>en</strong> las columnas el término k2.<br />

b) <strong>Reglas</strong> Complejas tipo 1<br />

Estas reglas pose<strong>en</strong> un elem<strong>en</strong>to <strong>en</strong> el antece<strong>de</strong>nte y por lo m<strong>en</strong>os dos <strong>en</strong> el<br />

consecu<strong>en</strong>te, es <strong>de</strong>cir, son <strong>de</strong>l tipo k1→k2 … km+1, con m ≥ 2. Consi<strong>de</strong>remos la regla<br />

a → b c que es una regla 1-2. <strong>Utilizando</strong> la Lógica <strong>de</strong> Predicados esta regla se pue<strong>de</strong><br />

escribir como a ( b c)<br />

( a<br />

b)<br />

( a<br />

c)<br />

. Esta regla se normaliza <strong>en</strong> cláusulas<br />

formales y se <strong>de</strong>scompone <strong>en</strong> conjunciones <strong>de</strong> reglas simples:<br />

1


a b c ( a b)<br />

( a c)<br />

. Luego, el cálculo <strong>de</strong> la conformidad se transforma <strong>en</strong> el<br />

cálculo <strong>de</strong> conformida<strong>de</strong>s <strong>de</strong> reglas simples. Así, la conformidad <strong>de</strong> este tipo <strong>de</strong> reglas se<br />

<strong>de</strong>fine <strong>de</strong> la sigui<strong>en</strong>te manera:<br />

Cm( a b c)<br />

min ( Cm( a b),<br />

Cm(<br />

a c))<br />

La función min correspon<strong>de</strong> al mínimo valor <strong>en</strong>tre las dos conformida<strong>de</strong>s calculadas, y<br />

asegura que al m<strong>en</strong>os una regla simple t<strong>en</strong>ga un valor bajo <strong>de</strong> conformidad. Por consecu<strong>en</strong>cia,<br />

la regla compleja también ti<strong>en</strong>e un valor bajo <strong>de</strong> conformidad.<br />

c) <strong>Reglas</strong> Complejas tipo 2<br />

Este tipo <strong>de</strong> reglas posee por lo m<strong>en</strong>os dos elem<strong>en</strong>tos <strong>en</strong> el antece<strong>de</strong>nte y un solo<br />

elem<strong>en</strong>to <strong>en</strong> el consecu<strong>en</strong>te, es <strong>de</strong>cir, son <strong>de</strong>l tipo k1 … kn → kn+1, con n ≥ 2. Consi<strong>de</strong>remos<br />

como ejemplo la regla a b→c que es una regla 2-1. <strong>Utilizando</strong> la Lógica <strong>de</strong> Predicados esta<br />

regla se pue<strong>de</strong> escribir como ( a b)<br />

c ( a<br />

b)<br />

c ( a<br />

c)<br />

( b<br />

c).<br />

Esta regla se<br />

normaliza <strong>en</strong> cláusulas formales y se <strong>de</strong>scompone <strong>en</strong> conjunciones <strong>de</strong> dos reglas simples:<br />

a b c ( a c)<br />

( b c).<br />

Ahora se transforma <strong>en</strong> el cálculo <strong>de</strong> conformida<strong>de</strong>s <strong>de</strong> reglas<br />

simples. El cálculo <strong>de</strong> la conformidad <strong>de</strong> este tipo <strong>de</strong> reglas se <strong>de</strong>fine <strong>de</strong> la sigui<strong>en</strong>te manera:<br />

Cm( a b c)<br />

max ( Cm( a c),<br />

Cm(<br />

b c))<br />

La función max correspon<strong>de</strong> al máximo valor <strong>en</strong>tre las dos conformida<strong>de</strong>s calculadas,<br />

y asegura que al m<strong>en</strong>os una regla simple t<strong>en</strong>ga un valor alto <strong>de</strong> conformidad, por lo tanto la<br />

regla compleja también ti<strong>en</strong>e un valor alto <strong>de</strong> conformidad.<br />

d) <strong>Reglas</strong> Complejas tipo 3<br />

Estas reglas pose<strong>en</strong> por lo m<strong>en</strong>os dos elem<strong>en</strong>tos tanto <strong>en</strong> el antece<strong>de</strong>nte como <strong>en</strong> el<br />

consecu<strong>en</strong>te, es <strong>de</strong>cir, son <strong>de</strong>l tipo k1 … kn → kn+1 kn+m, con n ≥ 2 y m ≥ 2. Consi<strong>de</strong>remos<br />

como ejemplo la regla a b → c d que correspon<strong>de</strong> a una regla 2-2. Esta regla se<br />

normaliza <strong>en</strong> cláusulas formales y se <strong>de</strong>scompone <strong>en</strong> conjunciones <strong>de</strong> disyunciones:<br />

( a c)<br />

( b c)<br />

( a d)<br />

( b d)<br />

.<br />

El cálculo <strong>de</strong> la conformidad <strong>de</strong> este tipo <strong>de</strong> reglas<br />

se realiza <strong>de</strong> la sigui<strong>en</strong>te forma:<br />

Cm( a b c d)<br />

min(maxCm ( a c),<br />

Cm(<br />

b c)<br />

,maxCm<br />

( a d),<br />

Cm(<br />

b d))<br />

<br />

Una <strong>de</strong> las <strong>de</strong>sv<strong>en</strong>tajas <strong>de</strong>l <strong>en</strong>foque <strong>de</strong> Toussaint [6, 7, 20] es que requiere <strong>de</strong> un<br />

experto para supervisar el comportami<strong>en</strong>to <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>l dominio, el cual <strong>de</strong>be agregar<br />

nuevas relaciones <strong>en</strong> el mo<strong>de</strong>lo cuando sea necesario. Cuando un término no existe <strong>en</strong> el<br />

mo<strong>de</strong>lo se <strong>de</strong>be agregar el término como un nodo <strong>en</strong> el grafo y consecu<strong>en</strong>tem<strong>en</strong>te la arista que<br />

une este nodo al grafo repres<strong>en</strong>ta la relación <strong>de</strong> g<strong>en</strong>eralización/especialización que existe<br />

<strong>en</strong>tre el nuevo término y un término exist<strong>en</strong>te <strong>en</strong> el grafo.<br />

42


Al igual que <strong>en</strong> el <strong>en</strong>foque <strong>de</strong> Mooney [4], la técnica <strong>de</strong> evaluación <strong>de</strong> Toussaint [6, 7,<br />

20] posee algunos inconv<strong>en</strong>i<strong>en</strong>tes cuando aparec<strong>en</strong> términos que no están <strong>de</strong>finidos <strong>en</strong> el<br />

mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to. La difer<strong>en</strong>cia radica <strong>en</strong> la forma <strong>de</strong> evaluación <strong>de</strong> esta irregularidad.<br />

En el primero, para una relación que no existe <strong>en</strong> WordNet se asocia un alto grado <strong>de</strong> interés,<br />

<strong>en</strong> cambio <strong>en</strong> el segundo le asocian un bajo grado <strong>de</strong> interés. Si bi<strong>en</strong> es cierto son formas<br />

distintas <strong>de</strong> <strong>en</strong>fr<strong>en</strong>tar el problema, no solucionan el problema <strong>de</strong> fondo <strong>en</strong> don<strong>de</strong> es casi<br />

imposible t<strong>en</strong>er un mo<strong>de</strong>lo que cubra completam<strong>en</strong>te el dominio, ni tampoco t<strong>en</strong>er <strong>en</strong><br />

WordNet todas las relaciones que pue<strong>de</strong>n aparecer <strong>en</strong> los corpus <strong>de</strong> textos.<br />

El <strong>en</strong>foque <strong>de</strong> Mooney [4] pue<strong>de</strong> b<strong>en</strong>eficiarse <strong>de</strong>bido a que no es <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l<br />

dominio, es <strong>de</strong>cir, se pue<strong>de</strong> aplicar <strong>en</strong> corpus <strong>de</strong> textos <strong>de</strong> cualquier temática sin un esfuerzo<br />

adicional <strong>en</strong> construir su fu<strong>en</strong>te <strong>de</strong> conocimi<strong>en</strong>to, ya que utiliza WordNet. Por otro lado, el<br />

<strong>en</strong>foque <strong>de</strong> Toussaint [6, 7, 20] requiere g<strong>en</strong>erar el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to <strong>de</strong>l dominio antes<br />

<strong>de</strong> realizar la tarea <strong>de</strong> minería <strong>de</strong> textos.<br />

En otro <strong>en</strong>foque [3] se propone un mo<strong>de</strong>lo <strong>de</strong> evaluación <strong>de</strong> múltiples métricas.<br />

Aunque no se g<strong>en</strong>eran el mismo tipo <strong>de</strong> reglas <strong>de</strong> asociación si no reglas a un nivel semántico<br />

más alto, específicam<strong>en</strong>te reglas <strong>de</strong> relaciones <strong>de</strong>l tipo causa y efecto. El mo<strong>de</strong>lo combina<br />

técnicas <strong>de</strong> extracción <strong>de</strong> información con algoritmos g<strong>en</strong>éticos. Específicam<strong>en</strong>te se combinan<br />

fragm<strong>en</strong>tos <strong>de</strong> información clave extraídas <strong>de</strong>s<strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> textos y <strong>de</strong>spués se utiliza<br />

una estrategia <strong>de</strong> apr<strong>en</strong>dizaje multi-criterio <strong>de</strong> optimización para producir la explicación <strong>de</strong>l<br />

conocimi<strong>en</strong>to sin utilizar fu<strong>en</strong>tes <strong>de</strong> recursos externas. El <strong>en</strong>foque investiga el hecho que por<br />

medio <strong>de</strong> la combinación <strong>de</strong> algoritmos g<strong>en</strong>éticos con la extracción <strong>de</strong> información basada <strong>en</strong><br />

género se pue<strong>de</strong> <strong>de</strong>scubrir conocimi<strong>en</strong>to <strong>de</strong> alto nivel <strong>en</strong> forma <strong>de</strong> patrones explicativos. El<br />

mo<strong>de</strong>lo está dividido <strong>en</strong> dos fases g<strong>en</strong>erales:<br />

1) Preprocesami<strong>en</strong>to y <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to: Dado un corpus <strong>de</strong> textos <strong>de</strong> n docum<strong>en</strong>tos, al<br />

aplicar la técnica <strong>de</strong> extracción <strong>de</strong> información se g<strong>en</strong>eran n reglas que repres<strong>en</strong>tan<br />

el cont<strong>en</strong>ido <strong>de</strong> los docum<strong>en</strong>tos <strong>en</strong> términos <strong>de</strong> relaciones <strong>de</strong> causa y efecto.<br />

Simultáneam<strong>en</strong>te se realiza el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to a partir <strong>de</strong>l corpus <strong>de</strong> textos<br />

realizando extracción <strong>de</strong> información a nivel semántico-léxico, para lo cual se<br />

utiliza una estrategia basada <strong>en</strong> Análisis Semántico Lat<strong>en</strong>te (LSA) estructurado.<br />

Estas dos tareas g<strong>en</strong>eran el mo<strong>de</strong>lo semántico para guiar posteriorm<strong>en</strong>te el<br />

<strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> patrones.<br />

2) Descubrimi<strong>en</strong>to <strong>de</strong> patrones: Se realiza un procesami<strong>en</strong>to que g<strong>en</strong>era un conjunto<br />

<strong>de</strong> hipótesis que correspon<strong>de</strong>n a la población inicial <strong>de</strong>l algoritmo g<strong>en</strong>ético. Luego<br />

se <strong>de</strong>scubre conocimi<strong>en</strong>to a través <strong>de</strong>l algoritmo g<strong>en</strong>ético con el objetivo <strong>de</strong><br />

explicar las hipótesis.<br />

Para el procesami<strong>en</strong>to <strong>de</strong> las bases <strong>de</strong> datos textuales, el mo<strong>de</strong>lo propone nuevos<br />

esquemas <strong>de</strong> extracción y repres<strong>en</strong>tación <strong>de</strong> conocimi<strong>en</strong>to inicial <strong>de</strong> los docum<strong>en</strong>tos, lo cual<br />

es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l dominio pero es <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l género ci<strong>en</strong>tífico y/o técnico (abstracts).<br />

En la fase <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> conocimi<strong>en</strong>to, la búsqueda/optimización <strong>de</strong> soluciones se<br />

basa <strong>en</strong> un algoritmo g<strong>en</strong>ético multi-objetivo que está guiado por información semántica <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>scrita anteriorm<strong>en</strong>te. El mo<strong>de</strong>lo asume que no solo esta tratando <strong>de</strong> <strong>de</strong>scubrir<br />

conocimi<strong>en</strong>to valioso sino que también int<strong>en</strong>ta “explicar” la relación <strong>en</strong>tre conceptos aislados<br />

43


(“target concepts”), <strong>en</strong> el s<strong>en</strong>tido tradicional <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>. Con el fin <strong>de</strong> evaluar los<br />

patrones <strong>de</strong>scubiertos, se utiliza una estrategia basada <strong>en</strong> cálculo <strong>de</strong> “fitness” a partir <strong>de</strong><br />

múltiples objetivos, los que se integran para g<strong>en</strong>erar valores <strong>de</strong> evaluación a través <strong>de</strong> una<br />

estrategia basada <strong>en</strong> SPEA (Str<strong>en</strong>gh Pareto Evolutionary Algorithm) [43].<br />

La evaluación <strong>de</strong> patrones se lleva a cabo utilizando seis métricas <strong>de</strong> evaluación. Por<br />

un lado, las cuatro primeras consi<strong>de</strong>ran información semántica para asegurar que las hipótesis<br />

g<strong>en</strong>eradas sean coher<strong>en</strong>tes y plausibles. Por otro lado, buscan medir criterios más subjetivos<br />

<strong>de</strong> las hipótesis por medio <strong>de</strong> las métricas <strong>de</strong> interés, relevancia, simplicidad y novedad.<br />

1) Estructura: mi<strong>de</strong> la información retórica a nivel <strong>de</strong> discurso que conti<strong>en</strong><strong>en</strong> las hipótesis<br />

y busca respon<strong>de</strong>r a la pregunta ¿Qué tan bu<strong>en</strong>a es la estructura <strong>de</strong> la hipótesis?.<br />

2) Cohesión: mi<strong>de</strong> la asociación <strong>en</strong>tre una acción <strong>de</strong> predicativa con algún rol retórico<br />

específico, esta interrogante nace <strong>de</strong>bido a que algunas relaciones <strong>de</strong> predicados ti<strong>en</strong>e una<br />

probabilidad mayor <strong>de</strong> estar asociadas con algunos roles retóricos.<br />

3) Coher<strong>en</strong>cia: mi<strong>de</strong> cómo los elem<strong>en</strong>tos <strong>de</strong> la hipótesis actual se relacionan a cada una <strong>de</strong><br />

las otras <strong>de</strong> forma semánticam<strong>en</strong>te coher<strong>en</strong>te.<br />

4) Interés: mi<strong>de</strong> el grado <strong>de</strong> disimilaridad semántica <strong>en</strong>tre los elem<strong>en</strong>tos <strong>de</strong> una hipótesis.<br />

5) Relevancia: mi<strong>de</strong> el grado <strong>de</strong> explicación <strong>de</strong>l conocimi<strong>en</strong>to <strong>de</strong>scubierto,<br />

específicam<strong>en</strong>te evalúa la semántica <strong>de</strong> una hipótesis con respecto a su cercanía a los<br />

conceptos objetivos <strong>de</strong>finidos por el “usuario” para <strong>en</strong>tregar más información <strong>de</strong> las<br />

relaciones <strong>de</strong>sconocidas <strong>en</strong>tre estos conceptos.<br />

6) Novedad: <strong>de</strong>termina el grado <strong>de</strong> “plausibilidad” <strong>de</strong> una hipótesis que ha sido producida<br />

recordando la calidad <strong>de</strong> la infer<strong>en</strong>cia <strong>de</strong> esta hipótesis <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong> su creación.<br />

El mo<strong>de</strong>lo <strong>de</strong> evaluación es aplicado con un corpus <strong>de</strong> docum<strong>en</strong>tos <strong>de</strong> un cierto<br />

dominio, a partir <strong>de</strong>l cual se g<strong>en</strong>era un conjunto <strong>de</strong> las mejores hipótesis. Posteriorm<strong>en</strong>te se<br />

realiza la evaluación automática <strong>de</strong> hipótesis que se compara con la evaluación llevada a cabo<br />

por expertos humanos <strong>en</strong> el dominio específico.<br />

La evaluación experim<strong>en</strong>tal <strong>de</strong>l mo<strong>de</strong>lo muestra que el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> éste es<br />

comparable al <strong>de</strong> los expertos. Así, el mo<strong>de</strong>lo es efectivo <strong>en</strong> términos <strong>de</strong> <strong>de</strong>scubrir patrones <strong>de</strong><br />

“calidad” <strong>de</strong> forma in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l dominio y con resultados superiores a otros mo<strong>de</strong>los<br />

que utilizan ontologías o bases <strong>de</strong> datos léxicas.<br />

A difer<strong>en</strong>cia <strong>de</strong> los otros trabajos, este <strong>en</strong>foque es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l dominio y no<br />

requiere <strong>de</strong> una fu<strong>en</strong>te <strong>de</strong> conocimi<strong>en</strong>to externa, por lo tanto podría aplicarse <strong>en</strong> distintos<br />

dominios sin la necesidad <strong>de</strong> gran<strong>de</strong>s modificaciones. Al no <strong>de</strong>p<strong>en</strong><strong>de</strong>r <strong>de</strong> una fu<strong>en</strong>te <strong>de</strong><br />

conocimi<strong>en</strong>to siempre va a evaluar el grado <strong>de</strong> interés <strong>de</strong> las reglas <strong>de</strong> acuerdo a sus<br />

características, lo cual no ocurre <strong>en</strong> los otros dos <strong>en</strong>foques <strong>de</strong>bido a que si una palabra <strong>de</strong> la<br />

regla no se <strong>en</strong>cu<strong>en</strong>tra <strong>de</strong>finida, la evaluación es difer<strong>en</strong>te a las que si aparec<strong>en</strong> <strong>en</strong> su fu<strong>en</strong>te <strong>de</strong><br />

conocimi<strong>en</strong>to.<br />

44


El problema que se pres<strong>en</strong>ta <strong>en</strong> los <strong>en</strong>foques <strong>de</strong> minería <strong>de</strong> textos que utilizan la<br />

técnica <strong>de</strong> reglas <strong>de</strong> asociación, consiste <strong>en</strong> que éstas no capturan el conocimi<strong>en</strong>to implícito<br />

que existe <strong>en</strong> forma <strong>de</strong> l<strong>en</strong>guaje natural <strong>en</strong> el corpus <strong>de</strong> texto. Esto se <strong>de</strong>be a que no toman <strong>en</strong><br />

consi<strong>de</strong>ración ningún otro factor aparte <strong>de</strong> la cantidad <strong>de</strong> veces que aparece un término <strong>en</strong> el<br />

corpus <strong>de</strong> textos. Una forma <strong>de</strong> capturar este conocimi<strong>en</strong>to es por medio <strong>de</strong> técnicas <strong>de</strong><br />

Análisis Semántico basadas <strong>en</strong> corpus.<br />

4. Mo<strong>de</strong>lo Multiestrategia <strong>de</strong> <strong>Evaluación</strong> <strong>de</strong> <strong>Reglas</strong> <strong>de</strong><br />

<strong>Asociación</strong><br />

Uno <strong>de</strong> los aspectos claves <strong>en</strong> evaluación <strong>de</strong> patrones cuando se utilizan mo<strong>de</strong>los <strong>de</strong><br />

conocimi<strong>en</strong>tos (Lattices) consiste <strong>en</strong> el tipo <strong>de</strong> restricción <strong>de</strong> relaciones semánticas, lo cual se<br />

<strong>de</strong>be a la forma <strong>en</strong> que son creados los conceptos. En el caso <strong>de</strong> lattices, crear conceptos<br />

<strong>de</strong>p<strong>en</strong><strong>de</strong> fuertem<strong>en</strong>te <strong>en</strong> las propieda<strong>de</strong>s exactas <strong>de</strong>l conjunto inclusión que podría<br />

ev<strong>en</strong>tualm<strong>en</strong>te <strong>de</strong>scartar semánticam<strong>en</strong>te términos que no se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> el conjunto a<br />

partir <strong>de</strong>l cual se construye el concepto. Por otro lado, la evaluación <strong>de</strong> patrones con métrica<br />

<strong>de</strong> distancia semántica basado <strong>en</strong> LSA no permite establecer relaciones específicas <strong>de</strong><br />

g<strong>en</strong>eralización/especialización lo cual hace más complejo el cálculo <strong>de</strong> métricas basadas <strong>en</strong><br />

estructuras como conformidad o novedad. A<strong>de</strong>más, relaciones con nombres específicos <strong>en</strong>tre<br />

términos resulta difícil <strong>de</strong> <strong>de</strong>terminar con datos provistos por LSA a m<strong>en</strong>os que se consi<strong>de</strong>r<strong>en</strong><br />

tareas adicionales <strong>de</strong> extracción <strong>de</strong> relaciones.<br />

En este trabajo se combina un mo<strong>de</strong>lo basado <strong>en</strong> Lattice con medidas <strong>de</strong> similaridad<br />

basadas <strong>en</strong> LSA con el objetivo <strong>de</strong> realizar un “matching” más aproximado usando métrica <strong>de</strong><br />

distancias semánticas al mom<strong>en</strong>to <strong>de</strong> construir el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to. Con lo anterior, se<br />

logra un mecanismo más efectivo para evaluar patrones <strong>en</strong> forma <strong>de</strong> reglas <strong>de</strong> asociación. Por<br />

lo tanto, la contribución <strong>de</strong> esta tesis consiste <strong>en</strong> <strong>de</strong>sarrollar un nuevo <strong>en</strong>foque multi-estrategia<br />

para evaluar patrones usando mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to semántico que se construye<br />

automáticam<strong>en</strong>te <strong>en</strong> dos fases <strong>de</strong> la sigui<strong>en</strong>te manera:<br />

- Construy<strong>en</strong>do un espacio semántico multidim<strong>en</strong>sional: el significado contextual <strong>de</strong><br />

palabras <strong>en</strong> un corpus pue<strong>de</strong> ser inferido a partir <strong>de</strong> la ocurr<strong>en</strong>cia <strong>de</strong> éstas <strong>en</strong> los docum<strong>en</strong>tos<br />

<strong>de</strong> textos por medio <strong>de</strong> LSA. Los vectores multidim<strong>en</strong>sionales obt<strong>en</strong>idos <strong>de</strong> esta tarea pue<strong>de</strong>n<br />

ser utilizados para calcular similaridad semántica <strong>en</strong>tre los términos cuando se construye el<br />

mo<strong>de</strong>lo.<br />

- Construy<strong>en</strong>do un mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to basado <strong>en</strong> Lattices: el <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong><br />

patrones pue<strong>de</strong> ser realizado midi<strong>en</strong>do distancias implícitas <strong>en</strong> la estructura jerárquica <strong>de</strong><br />

conceptos <strong>en</strong> términos <strong>de</strong> g<strong>en</strong>eralización/especialización [6, 7, 20]. A difer<strong>en</strong>cia <strong>de</strong> otros<br />

<strong>en</strong>foques, <strong>en</strong> la construcción <strong>de</strong>l Lattice se incorpora métricas <strong>de</strong> similaridad semántica basada<br />

<strong>en</strong> LSA cuando se crean los conceptos, lo cual pue<strong>de</strong> hacer más efectiva la evaluación <strong>de</strong><br />

reglas como también más robusta la creación <strong>de</strong> conceptos. Por lo anterior, esta estrategia <strong>de</strong><br />

dos fases se <strong>de</strong>nomina Lattice Conceptual Semántico (LCS), y permite la creación aproximada<br />

45


conceptos <strong>en</strong> mo<strong>de</strong>los <strong>de</strong> conocimi<strong>en</strong>tos tipo Lattice. La estructura g<strong>en</strong>eral <strong>de</strong>l algoritmo<br />

utilizado <strong>en</strong> este <strong>en</strong>foque se muestra <strong>en</strong> la figura 16.<br />

Sea C un corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

Sea S un espacio semantico multidim<strong>en</strong>sional<br />

C’ preprocesami<strong>en</strong>to (C)<br />

S’ Entr<strong>en</strong>ami<strong>en</strong>to LSA con C’<br />

Construir Lattice L con features <strong>de</strong> C’ y S<br />

Figura 16: Enfoque multi-estrategia <strong>de</strong> evaluación <strong>de</strong> patrones.<br />

El algoritmo para construir nuestro LCS se basa <strong>en</strong> la estrategia propuesta por Linding<br />

[23] ext<strong>en</strong>di<strong>en</strong>do su estructura para incorporar LSA, tal como se muestra <strong>en</strong> la figura 17.<br />

Crear Lattice L <strong>de</strong>s<strong>de</strong> features extraídos y un espacio LSA:<br />

Sea L un Lattice (G, M, I)<br />

Don<strong>de</strong> (G,M) y (G,M,I) son el concepto y el contexto respectivam<strong>en</strong>te<br />

c ( ,<br />

''<br />

')<br />

Insertar (c, L)<br />

for x NEIGHBORS (c, (G, M,I))<br />

lookup (x, L)<br />

Si no se <strong>en</strong>cu<strong>en</strong>tra y SimilaridadLSA (x ,c) > Umbral LSA<br />

Entonces insertar (x, L)<br />

x x {<br />

c}<br />

*<br />

*<br />

fin for<br />

LCS L<br />

*<br />

*<br />

c c {<br />

x}<br />

c next(<br />

c,<br />

L)<br />

Si no se <strong>en</strong>cu<strong>en</strong>tra <strong>en</strong>tonces salir<br />

Figura 17: Algoritmo Creación Lattice Conceptual Semántico (LCS).<br />

En el algoritmo anterior, la función NEIGHBORS calcula los vecinos superiores <strong>de</strong> un<br />

concepto (G, M), lo cual se pue<strong>de</strong> utilizar recursivam<strong>en</strong>te para calcular todos los conceptos L<br />

<strong>de</strong> un contexto parti<strong>en</strong>do <strong>de</strong>l concepto m<strong>en</strong>or ( , ''<br />

')<br />

<strong>de</strong>l lattice. Cada concepto c ti<strong>en</strong>e<br />

asociado dos listas: la lista c* que posee sus vecinos inferiores y otra lista c * que ti<strong>en</strong>e los<br />

vecinos superiores.<br />

Cada concepto pue<strong>de</strong> ser cambiado por dos conceptos difer<strong>en</strong>tes como su vecino<br />

superior, mi<strong>en</strong>tras el algoritmo procesa cada uno <strong>de</strong> los dos conceptos su vecino superior<br />

pue<strong>de</strong> ser <strong>de</strong>tectado. Para este propósito todos los conceptos son almac<strong>en</strong>ados <strong>en</strong> un árbol <strong>de</strong><br />

búsqueda L. En cada paso, el algoritmo <strong>en</strong>cu<strong>en</strong>tra un vecino, y busca utilizando método<br />

lookup <strong>en</strong> el árbol L si existe instancias <strong>de</strong>l concepto insertadas con anterioridad. Por otro<br />

lado, si la similaridad LSA <strong>en</strong>tre el nuevo concepto y x exce<strong>de</strong> el Umbral LSA el concepto se<br />

inserta <strong>en</strong> L.<br />

46


El algoritmo inserta conceptos <strong>en</strong> L y busca al mismo tiempo: next ( c,<br />

L)<br />

preguntando<br />

por el m<strong>en</strong>or concepto que es mayor que c con respecto al or<strong>de</strong>n total . Para asegurar que<br />

todos los conceptos que son insertados también consi<strong>de</strong>ra los vecinos superiores, el or<strong>de</strong>n total<br />

<strong>de</strong>l árbol <strong>de</strong>be ser el or<strong>de</strong>n parcial <strong>de</strong>l lattice ≤ <strong>de</strong> la sigui<strong>en</strong>te manera: c1 < c2 implica que<br />

c1 c2, <strong>de</strong> esta forma el vecino reci<strong>en</strong>tem<strong>en</strong>te insertado es mayor que el concepto actual<br />

respecto al or<strong>de</strong>n y por esto es consi<strong>de</strong>rado <strong>de</strong>spués por la función next.<br />

4.1 Preprocesami<strong>en</strong>to<br />

En esta etapa se realizan activida<strong>de</strong>s básicas <strong>de</strong> preprocesami<strong>en</strong>to para manejar los<br />

textos escritos <strong>en</strong> l<strong>en</strong>guaje natural, las cuales son las sigui<strong>en</strong>tes:<br />

a) Eliminación <strong>de</strong> Stopwords<br />

En esta etapa se eliminan todas las palabras irrelevantes que son conocidas como<br />

Stopwords, <strong>en</strong>tre las cuales <strong>de</strong>stacan: artículos, preposiciones, conjunciones, verbos comunes<br />

etc.<br />

b) Lematización<br />

En esta etapa se i<strong>de</strong>ntifican la raíz <strong>de</strong> las palabras pres<strong>en</strong>tes <strong>en</strong> cada feature <strong>en</strong>contrado.<br />

Por medio <strong>de</strong> lo cual, las palabras escritas <strong>de</strong> distintas maneras pero que ti<strong>en</strong><strong>en</strong> un mismo<br />

significado (pose<strong>en</strong> la misma raíz) se consi<strong>de</strong>raban como una misma palabra. Esto ayuda a<br />

mejorar la precisión <strong>en</strong> el cálculo <strong>de</strong>l support y confi<strong>de</strong>nce <strong>de</strong> las reglas <strong>de</strong> asociación<br />

g<strong>en</strong>eradas.<br />

El lematizador nos <strong>en</strong>trega que todas estas palabras ti<strong>en</strong><strong>en</strong> la misma raíz “abandon” <strong>de</strong>l<br />

verbo “abandonar”. Se pue<strong>de</strong> apreciar que todas las palabras están escritas <strong>de</strong> difer<strong>en</strong>te<br />

manera pero que ti<strong>en</strong><strong>en</strong> el mismo significado. Ahora, supongamos que la lista <strong>de</strong> palabras<br />

correspon<strong>de</strong> al total <strong>de</strong> features <strong>en</strong>contrados. Entonces si estas 6 palabras no fueran<br />

lematizadas cada una <strong>de</strong> ellas ti<strong>en</strong>e un support <strong>de</strong> 1, es <strong>de</strong>cir, aparec<strong>en</strong> una sola vez <strong>en</strong> todos<br />

los docum<strong>en</strong>tos, <strong>en</strong> cambio si se aplicará el lematizador se ti<strong>en</strong>e una sola palabra que ti<strong>en</strong>e un<br />

support <strong>de</strong> 6.<br />

c) Etiquetado Léxico<br />

D<strong>en</strong>tro <strong>de</strong> los métodos <strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> frases exist<strong>en</strong> herrami<strong>en</strong>tas capaces <strong>de</strong><br />

etiquetar cada palabra pres<strong>en</strong>te <strong>en</strong> un texto <strong>de</strong> acuerdo al rol que juegan <strong>en</strong> una oración, es<br />

<strong>de</strong>cir, si la palabra correspon<strong>de</strong> a un nombre, verbo, sustantivo, artículo, adjetivo, adverbio,<br />

etc. Estas características se <strong>de</strong>nominan Partes <strong>de</strong>l Habla y las herrami<strong>en</strong>tas que permit<strong>en</strong><br />

pre<strong>de</strong>cir estas etiquetas o categorías se <strong>de</strong>nominan Etiquetadores POS (Part-Of-Speech) [15].<br />

47


tags interpretación tag interpretación tag interpretación<br />

Verb, gerund or pres<strong>en</strong>t<br />

CC Coordinating conjunction NNPS Proper noun, plural VBG participle<br />

CD Cardinal number PDT Pre<strong>de</strong>terminer VBN Verb, past participle<br />

Verb, non-3rd person singular<br />

DT Determiner POS Possessive <strong>en</strong>ding VBP pres<strong>en</strong>t<br />

Verb, 3rd person singular<br />

EX Exist<strong>en</strong>tial there PRP Personal pronoun VBZ pres<strong>en</strong>t<br />

FW Foreign word<br />

Preposition or subordinating<br />

PRP$ Possessive pronoun WDT Wh-<strong>de</strong>terminer<br />

IN conjunction RB Adverb WP Wh-pronoun<br />

JJ Adjective RBR Adverb, comparative WP$ Possessive wh-pronoun<br />

JJR Adjective, comparative RBS Adverb, superlative WRB Wh-adverb<br />

JJS Adjective, superlative RP Particle<br />

LS List item marker SYM Symbol<br />

MD Modal TO to<br />

NN Noun, singular or mass UH Interjection<br />

NNS Noun, plural VB Verb, base form<br />

NNP Proper noun, singular VBD Verb, past t<strong>en</strong>se<br />

Tabla 7: Algunas etiquetas utilizadas por el Etiquetador POS.<br />

Un ejemplo <strong>de</strong> un texto etiquetado es el sigui<strong>en</strong>te:<br />

The/DT <strong>en</strong>doplasmic/JJ reticulum/NN (/( ER/NN )/) in/IN Saccharomyces/NNP cerevisiae/NNP<br />

consists/VBZ of/IN a/DT reticulum/NN un<strong>de</strong>rlying/VBG the/DT plasma/NN membrane/NN (/(<br />

cortical/JJ ER/NN )/) and/CC ER/NN associated/VBN with/IN the/DT nuclear/JJ <strong>en</strong>velope/NN (/(<br />

nuclear/JJ ER/NN )/) ./. We/PRP used/VBD a/DT Sec63p-gre<strong>en</strong>/JJ fluoresc<strong>en</strong>t/JJ protein/NN<br />

fusion/NN protein/NN to/TO study/VB motility/NN ev<strong>en</strong>ts/NNS associated/VBN with/IN inheritance/NN<br />

of/IN cortical/JJ ER/NN and/CC nuclear/JJ ER/NN in/IN living/VBG yeast/NN cells./NNS During/IN<br />

M/NN phase/NN before/IN nuclear/JJ migration/NN ,/, we/PRP observed/VBD thick/JJ ,/,<br />

appar<strong>en</strong>tly/RB rigid/JJ tubular/JJ ext<strong>en</strong>sions/NNS emanating/VBG from/IN the/DT nuclear/JJ ER/NN<br />

that/WDT elongate/VBP ,/, un<strong>de</strong>rgo/VBP sweeping/JJ motions/NNS along/IN the/DT cell/NN<br />

cortex/NN ,/, and/CC short<strong>en</strong>./VB Two/CD findings/NNS support/VBP a/DT role/NN for/IN<br />

microtubules/NNS in/IN this/DT process/NN ./.<br />

d) Definición y Búsqueda <strong>de</strong> Features<br />

En este mo<strong>de</strong>lo, la repres<strong>en</strong>tación <strong>de</strong> los textos se realiza mediante features que son <strong>de</strong><br />

la sigui<strong>en</strong>te manera:<br />

1. Nombre | Sustantivo | Adjetivo<br />

2. Nombre | Sustantivo<br />

En esta etapa se escoge un tipo <strong>de</strong> feature, y se busca <strong>en</strong> todo el corpus <strong>de</strong> textos<br />

combinaciones <strong>de</strong> tags que correspondan a alguna <strong>de</strong> las combinaciones <strong>de</strong>l tipo <strong>de</strong> feature<br />

seleccionado. Estos features <strong>en</strong>contrados se dice que repres<strong>en</strong>tan el corpus <strong>de</strong> textos <strong>de</strong>bido a<br />

que <strong>en</strong> ellos se aplica la técnica <strong>de</strong> reglas <strong>de</strong> asociación para <strong>en</strong>contrar patrones <strong>en</strong> los textos.<br />

48


Cada uno <strong>de</strong> los features busca <strong>en</strong>contrar combinación <strong>de</strong> las categorías gramaticales<br />

por las que esta conformado. Por ejemplo, el feature Nombre | Sustantivo | Adjetivo busca<br />

<strong>en</strong>contrar <strong>en</strong> los textos combinaciones <strong>de</strong> estas tres partes <strong>de</strong>l habla. Estas combinaciones<br />

correspon<strong>de</strong>n a las sigui<strong>en</strong>tes:<br />

Nombre | Sustantivo | Adjetivo<br />

Nombre | Adjetivo | Sustantivo<br />

Sustantivo | Adjetivo | Nombre<br />

Sustantivo | Nombre | Adjetivo<br />

Adjetivo | Sustantivo | Nombre<br />

Adjetivo | Nombre | Sustantivo<br />

4.2 G<strong>en</strong>eración <strong>de</strong>l Mo<strong>de</strong>lo <strong>de</strong> Conocimi<strong>en</strong>to<br />

Para construir el Mo<strong>de</strong>lo Conocimi<strong>en</strong>to Semántico se <strong>de</strong>b<strong>en</strong> g<strong>en</strong>erar los mo<strong>de</strong>los<br />

semántico y <strong>de</strong>l dominio basados <strong>en</strong> LSA y FCA respectivam<strong>en</strong>te <strong>en</strong> el sigui<strong>en</strong>te or<strong>de</strong>n:<br />

a) Creación Espacio Semántico con LSA<br />

<strong>Utilizando</strong> un corpus <strong>de</strong> texto, LSA produce un conjunto <strong>de</strong> vectores semánticos<br />

altam<strong>en</strong>te dim<strong>en</strong>sionales que repres<strong>en</strong>tan conocimi<strong>en</strong>tos a nivel léxico semántico por cada<br />

palabra <strong>de</strong> un docum<strong>en</strong>to. Los vectores son obt<strong>en</strong>idos aplicando un conjunto <strong>de</strong> operaciones<br />

matriciales utilizando la técnica <strong>de</strong> Descomposición <strong>de</strong> Valores Singulares (Singular Value<br />

Descomposition o SVD). La repres<strong>en</strong>tación <strong>de</strong> vector <strong>en</strong>tonces se pue<strong>de</strong> utilizar para medir la<br />

cercanía semántica <strong>de</strong> dos términos t1 y t2 <strong>de</strong> la sigui<strong>en</strong>te forma:<br />

b) G<strong>en</strong>eración <strong>de</strong> Estructuras Conceptuales<br />

SimilaridadLSA (t1, t2)=COSENO (t1, t2)<br />

Para g<strong>en</strong>erar un Lattice Conceptual a partir <strong>de</strong> términos extraídos <strong>de</strong>s<strong>de</strong> un corpus <strong>de</strong><br />

textos se utilizó una adaptación al método propuesto por Toussaint [6, 7, 20]. Nuestro <strong>en</strong>foque<br />

consi<strong>de</strong>ra conocimi<strong>en</strong>to léxico semántico provisto por LSA para agregar atributos similares<br />

<strong>de</strong>ntro <strong>de</strong> un concepto <strong>de</strong>l lattice sin utilizar recursos externos <strong>de</strong> conocimi<strong>en</strong>to tal como se<br />

pres<strong>en</strong>tó <strong>en</strong> la figura 17. Cabe resaltar que un lattice utiliza un tipo <strong>de</strong> relación <strong>de</strong> jerarquía (es<br />

<strong>de</strong>cir, a-subconjunto–<strong>de</strong>) el cual no pue<strong>de</strong> ser <strong>de</strong>terminado al utilizar sólo métricas <strong>de</strong><br />

similaridad semántica. Por lo anterior, al utilizar LSA no es posible <strong>de</strong>terminar el nombre <strong>de</strong><br />

una relación o incluso la dirección (distancia LSA <strong>en</strong>tre término t1 y t2 es la misma <strong>en</strong>tre t2 y<br />

t1). Para resolver la problemática antes planteada, los vectores semánticos provistos por LSA<br />

son incorporados para medir similaridad <strong>en</strong>tre términos que se agregan por FCA al Lattice<br />

cuando se construye la Estructura Conceptual. Dado dos términos t1 y t2 para ser<br />

incorporados <strong>en</strong> el Lattice el término t1 <strong>de</strong>be estar incluido <strong>en</strong> un subconjunto <strong>de</strong> t2 (con t1 no<br />

49


necesariam<strong>en</strong>te un matching exacto con el otro término) y la similaridad LSA <strong>en</strong>tre ambos<br />

exce<strong>de</strong> cierto Umbral LSA. Este lattice que es creado se <strong>de</strong>nomina Lattice Conceptual<br />

Semántico (SCL).<br />

La tabla 8 muestra valores <strong>de</strong> similitud semántica <strong>de</strong> los términos pres<strong>en</strong>tes <strong>en</strong> el<br />

mismo corpus <strong>de</strong> textos <strong>de</strong> la tabla 3.<br />

a b C d e<br />

a 1 0.2 0.3 0.4 0.5<br />

b 0.2 1 0.6 0.7 0.8<br />

c 0.3 0.6 1 0.9 0.95<br />

d 0.4 0.7 0.9 1 0.96<br />

e 0.5 0.8 0.95 0.96 1<br />

Tabla 8: Similitud exist<strong>en</strong>te <strong>en</strong>tre palabras <strong>de</strong>l corpus <strong>de</strong> textos<br />

Dado el ejemplo <strong>de</strong>l contexto formal <strong>de</strong> la tabla 3 y consi<strong>de</strong>rando las similitu<strong>de</strong>s<br />

semánticas <strong>de</strong> la tabla 8, se pue<strong>de</strong>n construir más <strong>de</strong> un Lattice Conceptual Semántico<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong> Umbral similaridad semántica (Umbral LSA).<br />

Al <strong>de</strong>finir experim<strong>en</strong>talm<strong>en</strong>te el valor Umbral LSA =1.0, que es el máximo valor<br />

posible, el Lattice conceptual Semántico queda con la sigui<strong>en</strong>te estructura <strong>de</strong> la figura 18.<br />

Figura 18: Lattice Conceptual Semántico con Umbral LSA=1.0.<br />

Como se aprecia <strong>en</strong> el Lattice Conceptual Semántico <strong>de</strong> la figura 18, con un Umbral<br />

LSA igual a 1.0 el mo<strong>de</strong>lo no ti<strong>en</strong>e relevancia <strong>en</strong> la evaluación <strong>de</strong> reglas <strong>de</strong> asociación, ya que<br />

todos los conceptos quedan <strong>en</strong> un mismo nivel <strong>de</strong> jerarquía.<br />

19.<br />

C1<br />

{}<br />

C2 C3 C4 C5 C6<br />

C7<br />

{c}<br />

{b, e} {a,c} {e,c,b } {a, d, c} {a, b, c, e}<br />

Si se reduce el Umbral LSA a 0.9 se obti<strong>en</strong>e Lattice conceptual Semántico <strong>de</strong> la figura<br />

C2 C3 C4 C5 C6<br />

C7<br />

C1<br />

{c} {b, e} {a,c} {e,c,b } {a, d, c} {a, b, c, e} {a, b, c, d, e}<br />

Figura 19: Lattice Conceptual Semántico con Umbral LSA=0.9.<br />

{}<br />

50<br />

C8<br />

{a, b, c, d, e}<br />

C8


Como se aprecia <strong>en</strong> las figura 18 y 19, al disminuir el Umbral LSA la estructura <strong>de</strong>l<br />

Lattice conceptual Semántico cambia. Al disminuir el valor <strong>de</strong> Umbral LSA se obti<strong>en</strong>e una<br />

estructura que permite difer<strong>en</strong>ciar semánticam<strong>en</strong>te mejor los términos que <strong>en</strong> ella se<br />

<strong>en</strong>cu<strong>en</strong>tran.<br />

Nuevam<strong>en</strong>te si se reduce el Umbral LSA a 0.8, cambia la estructura <strong>de</strong>l Lattice<br />

Conceptual Semántico, tal como se aprecia <strong>en</strong> la figura 20.<br />

{c}<br />

C2<br />

C5<br />

{e, c, b }<br />

C3<br />

C4<br />

C1<br />

{b, e} {a, c} {a, d, c} {a, b, c, e}<br />

Figura 20: Lattice Conceptual Semántico con Umbral LSA=0.8.<br />

Al <strong>de</strong>finir el Umbral LSA a 0.7 el Lattice conceptual Semántico queda como se aprecia<br />

<strong>en</strong> la figura 21.<br />

{c}<br />

C7<br />

{a, b, c, e}<br />

C2<br />

C5<br />

C3<br />

{b, e}<br />

{e, c, b }<br />

C8<br />

{a, b, c, d, e}<br />

C1<br />

Figura 21: Lattice Conceptual Semántico con Umbral LSA=0.7<br />

{}<br />

51<br />

{}<br />

C6<br />

C4<br />

C6<br />

{a, c}<br />

C7<br />

{a, d, c}<br />

C8<br />

{a, b, c, d, e}


Como se aprecia <strong>en</strong> la figuras 18, 19, 20 y 21 al variar el Umbral LSA, la estructura <strong>de</strong>l<br />

Lattice Conceptual Semántico cambia. Se pue<strong>de</strong> apreciar que a medida que va disminuy<strong>en</strong>do<br />

el Umbral LSA la estructura posee más niveles <strong>de</strong> jerarquía, lo que permitirá evaluar <strong>de</strong> mejor<br />

forma las reglas <strong>de</strong> asociación <strong>de</strong>scubiertas. Con valores Umbral LSA <strong>en</strong>tre 0.0 y 0.6 el Lattice<br />

Conceptual Semántico queda con la misma estructura que el pres<strong>en</strong>tado <strong>en</strong> la figura 12.<br />

{d}<br />

Figura 22: Lattice Conceptual Semántico con Umbral LSA=0.6, 0.5, 0.4, 0.3, 0.2, 0.1, 0.0<br />

Como se aprecia <strong>en</strong> la construcción <strong>de</strong>l Lattice Conceptual Semántico al variar el<br />

Umbral LSA, la estructura <strong>de</strong> éste varia. Se pue<strong>de</strong> apreciar con medidas cercanas a 1 la<br />

estructura no posee muchos niveles <strong>de</strong> jerarquía. Por el contrario con valores <strong>en</strong>tre 0.0 y 0.6<br />

(ver figura 22) la Estructura Conceptual Semántica es igual a la construida <strong>en</strong> el <strong>en</strong>foque <strong>de</strong><br />

Toussaint [6, 7, 20]. En el ejemplo se aprecia que pue<strong>de</strong> resultar más útil para evaluar el grado<br />

<strong>de</strong> interés <strong>de</strong> las reglas el Lattice Conceptual Semántico construido con valores <strong>de</strong> Umbral<br />

LSA <strong>en</strong>tre 0.7 y 0.8.<br />

4.3 G<strong>en</strong>eración y <strong>Evaluación</strong> <strong>de</strong> <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong><br />

C1<br />

{c} {b, e}<br />

{a}<br />

C2<br />

C4<br />

C6<br />

{}<br />

C8<br />

{a, b, c, d, e}<br />

En esta investigación se uso técnicas simples para la g<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong><br />

asociación. La v<strong>en</strong>taja <strong>de</strong> ello es su relativa simplicidad para traspasar el conocimi<strong>en</strong>to <strong>de</strong> las<br />

relaciones <strong>de</strong> un Lattice a una estructura <strong>de</strong> patrones basadas <strong>en</strong> reglas. En esta etapa <strong>de</strong>l<br />

mo<strong>de</strong>lo Lattice Conceptual Semántico se realizan dos tareas principales: g<strong>en</strong>eración <strong>de</strong> los<br />

conjuntos cerrados frecu<strong>en</strong>tes y la g<strong>en</strong>eración <strong>de</strong> reglas <strong>de</strong> asociación. Posteriorm<strong>en</strong>te, se<br />

evaluó el grado <strong>de</strong> interés <strong>de</strong> cada regla <strong>de</strong> asociación <strong>de</strong>scubierta. Para esto, se utiliza la<br />

estructura <strong>de</strong>l Lattice Conceptual Semántico. Cada regla se evalúa <strong>de</strong> acuerdo a la ubicación<br />

jerárquica <strong>de</strong>l antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>en</strong> dicho Lattice, el cual se repres<strong>en</strong>ta como un<br />

conjunto finito y parcialm<strong>en</strong>te or<strong>de</strong>nado <strong>de</strong> términos que establece una relación <strong>de</strong><br />

g<strong>en</strong>eralización/especialización.<br />

52<br />

C3<br />

C5<br />

C7<br />

{ }<br />

{ }


En Toussaint et al. [6, 7, 20] pres<strong>en</strong>tan la métrica “conformidad” que se calcula <strong>en</strong><br />

base al Lattice Conceptual. En nuestro mo<strong>de</strong>lo, utilizamos la misma métrica pero la<br />

<strong>de</strong>nominamos “conformidad semántica”, puesto que se calcula <strong>de</strong> acuerdo a un Lattice<br />

Conceptual Semántico.<br />

Al igual que <strong>en</strong> el <strong>en</strong>foque <strong>de</strong> Toussaint [6, 7, 20] el cálculo <strong>de</strong> conformidad semántica<br />

<strong>de</strong> los elem<strong>en</strong>tos <strong>de</strong>l dominio es asimétrico, es <strong>de</strong>cir, el valor <strong>de</strong> conformidad <strong>de</strong> la regla<br />

k1→k2 es distinto a la conformidad <strong>de</strong> k2→k1. Esto se <strong>de</strong>be a que la relación <strong>de</strong><br />

g<strong>en</strong>eralización/especialización pres<strong>en</strong>te <strong>en</strong> la estructura conceptual <strong>de</strong>l dominio es<br />

unidireccional.<br />

En esta etapa se realiza las sigui<strong>en</strong>tes tareas:<br />

a) Cálculo <strong>de</strong> Conformidad Semántica<br />

Por cada término que se <strong>en</strong>cu<strong>en</strong>tra <strong>en</strong> el Lattice Conceptual Semántico se calcula la<br />

Conformidad Semántica con todos los <strong>de</strong>más términos pert<strong>en</strong>eci<strong>en</strong>tes al lattice. La<br />

Conformidad Semántica repres<strong>en</strong>ta el grado <strong>de</strong> g<strong>en</strong>eralización/especialización que ti<strong>en</strong><strong>en</strong> dos<br />

términos <strong>en</strong> el Lattice Conceptual Semántico. Mi<strong>en</strong>tras mayor sea la distancia <strong>en</strong>tre dos<br />

términos <strong>en</strong> el Lattice, m<strong>en</strong>or es la relación <strong>de</strong> g<strong>en</strong>eralización/especialización que pose<strong>en</strong><br />

<strong>en</strong>tre sí. Por el contrario, cuando la distancia <strong>en</strong>tre dos términos es m<strong>en</strong>or, mayor es el grado<br />

<strong>de</strong> g<strong>en</strong>eralización/especialización que existe <strong>en</strong>tre ellos, y por <strong>en</strong><strong>de</strong>, existe una relación más<br />

estrecha <strong>de</strong> los elem<strong>en</strong>tos <strong>en</strong> el dominio.<br />

Si la conformidad semántica <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> una regla <strong>de</strong><br />

asociación ti<strong>en</strong>e una alta pon<strong>de</strong>ración se <strong>de</strong>be a que es una copia <strong>de</strong> una unidad <strong>de</strong><br />

conocimi<strong>en</strong>to exist<strong>en</strong>te <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to. Contrariam<strong>en</strong>te, una regla que ti<strong>en</strong>e<br />

una baja pon<strong>de</strong>ración pot<strong>en</strong>cialm<strong>en</strong>te expresa una relación interesante <strong>en</strong>tre los dos términos<br />

ya que posiblem<strong>en</strong>te no existe ninguna relación <strong>de</strong> g<strong>en</strong>eralización/especialización <strong>en</strong>tre los<br />

dos términos. Por lo tanto el grado <strong>de</strong> interés es inverso la conformidad semántica.<br />

Al finalizar esta etapa <strong>de</strong>l mo<strong>de</strong>lo, se g<strong>en</strong>era una matriz bidim<strong>en</strong>sional que conti<strong>en</strong>e la<br />

conformidad semántica <strong>de</strong> todos los términos exist<strong>en</strong>te <strong>en</strong> los features <strong>de</strong>scubiertos<br />

anteriorm<strong>en</strong>te.<br />

En el ejemplo <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> la figura 22, la matriz <strong>de</strong> conformidad semántica se<br />

aprecia <strong>en</strong> la tabla 9.<br />

a b c d e ∑<br />

a 0,26 0,26 0,09 0,26 0,13 1<br />

b 0,03 0,37 0,19 0,03 0,37 1<br />

c 0,07 0,07 0,73 0,07 0,07 1<br />

d 0,07 0,07 0,07 0,73 0,07 1<br />

e 0,04 0,04 0,44 0,04 0,44 1<br />

Tabla 9: Matriz Conformidad Semántica <strong>de</strong>l Mo<strong>de</strong>lo <strong>de</strong> Conocimi<strong>en</strong>to.<br />

53


) Cálculo <strong>de</strong> Conformidad <strong>de</strong> las <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong><br />

Para calcular la conformidad semántica <strong>en</strong> las reglas <strong>de</strong> asociación se distingu<strong>en</strong> dos<br />

tipos <strong>de</strong> reglas: simples y complejas. Las primeras son las que ti<strong>en</strong><strong>en</strong> un término tanto <strong>en</strong> el<br />

antece<strong>de</strong>nte como <strong>en</strong> el consecu<strong>en</strong>te, <strong>en</strong> cambio las complejas pue<strong>de</strong>n t<strong>en</strong>er varios términos.<br />

El cálculo <strong>de</strong> la conformidad <strong>de</strong> las reglas <strong>de</strong> asociación <strong>de</strong>scubiertas se realiza <strong>de</strong> igual<br />

forma que <strong>en</strong> el <strong>en</strong>foque propuesto por Toussaint et al. [6, 7, 20].<br />

c) Ranking <strong>de</strong> valores <strong>de</strong> evaluación<br />

En la última etapa <strong>de</strong> nuestro mo<strong>de</strong>lo se realiza el ranking <strong>de</strong> los valores al evaluar las<br />

reglas <strong>de</strong> asociación <strong>de</strong>scubiertas. Por cada regla <strong>de</strong>scubierta se calcula la conformidad<br />

semántica <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> una regla <strong>de</strong> asociación. Si la métrica ti<strong>en</strong>e<br />

una alta pon<strong>de</strong>ración se <strong>de</strong>be a que es una copia <strong>de</strong> una unidad <strong>de</strong> conocimi<strong>en</strong>to exist<strong>en</strong>te <strong>en</strong><br />

el mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to. Contrariam<strong>en</strong>te, una regla que ti<strong>en</strong>e una baja pon<strong>de</strong>ración<br />

pot<strong>en</strong>cialm<strong>en</strong>te expresa una relación interesante <strong>en</strong>tre los dos términos ya que posiblem<strong>en</strong>te<br />

no existe ninguna relación <strong>de</strong> g<strong>en</strong>eralización <strong>en</strong>tre los dos términos. Por lo tanto el grado <strong>de</strong><br />

interés es inverso la conformidad semántica, es <strong>de</strong>cir, “mi<strong>en</strong>tras m<strong>en</strong>or sea conformidad<br />

semántica <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> la regla <strong>de</strong> asociación, mayor es el grado<br />

<strong>de</strong> interés que aporta la regla <strong>de</strong> asociación”.<br />

La figura 23 muestra una estructura conceptual que fue construida sin consi<strong>de</strong>rar LSA<br />

<strong>en</strong> la creación <strong>de</strong> los conceptos.<br />

casa<br />

vivi<strong>en</strong>da<br />

C4<br />

C2 C3<br />

C5<br />

jeep<br />

reclamo<br />

Figura 23: Ejemplo Estructura Conceptual sin LSA<br />

Por otro lado, <strong>en</strong> la figura 24 se muestra como ejemplo una Estructura Conceptual que<br />

fue construida apoyado por la asociación semántica provista por LSA utilizando el mismo<br />

corpus <strong>de</strong> textos <strong>de</strong>l ejemplo <strong>de</strong> la figura 23 En esta figura se aprecia que los conceptos se<br />

<strong>en</strong>cu<strong>en</strong>tran agrupados semánticam<strong>en</strong>te.<br />

54<br />

C1<br />

perro


C2<br />

casa<br />

vivi<strong>en</strong>da<br />

C4<br />

C3<br />

cabaña<br />

Figura 24: Estructura Conceptual con LSA<br />

Como se aprecia <strong>en</strong> la figura 24, casa y cabaña <strong>en</strong> términos <strong>de</strong> semántica están más<br />

relacionados <strong>en</strong>tre sí, y son g<strong>en</strong>eralizados a través <strong>de</strong>l concepto formal vivi<strong>en</strong>da. Por otro lado,<br />

perro y jeep semánticam<strong>en</strong>te no son cercanos a vivi<strong>en</strong>da, por lo tanto no son subconceptos <strong>de</strong><br />

vivi<strong>en</strong>da.<br />

Al evaluar una regla <strong>de</strong> asociación “vivi<strong>en</strong>da””reclamo” con la estructura<br />

conceptual <strong>de</strong> la figura 23, la regla se evaluaría con un bajo grado <strong>de</strong> interés, puesto que <strong>en</strong><br />

esta estructura los conceptos “vivi<strong>en</strong>da” y “reclamo” se <strong>en</strong>cu<strong>en</strong>tran relacionados. Por el<br />

contrario, la misma regla “vivi<strong>en</strong>da””reclamo” evaluada con la estructura conceptual<br />

semántica <strong>de</strong> la figura 24 se consi<strong>de</strong>ra con alto grado <strong>de</strong> interés, ya que ambos términos no se<br />

<strong>en</strong>cu<strong>en</strong>tran relacionados <strong>en</strong>tre sí.<br />

55<br />

C5<br />

reclamo<br />

C1<br />

perro


5. Experim<strong>en</strong>tos y Resultados<br />

En este capítulo se evaluó la efectividad <strong>de</strong> nuestro <strong>en</strong>foque <strong>de</strong> evaluación <strong>de</strong> patrones<br />

implem<strong>en</strong>tando un prototipo simple y realizando <strong>en</strong> una primera etapa una serie <strong>de</strong> ajustes y<br />

posterior a ello, experim<strong>en</strong>tos finales. Los resultados finales se compararon con algunos<br />

mo<strong>de</strong>los <strong>de</strong>l estado <strong>de</strong>l arte <strong>en</strong> evaluación <strong>de</strong> patrones, y a<strong>de</strong>más se correlacionaron con<br />

opiniones <strong>de</strong> expertos humanos.<br />

Para realizar el testing se utilizó un corpus <strong>de</strong> 1000 docum<strong>en</strong>tos extraídos <strong>de</strong>s<strong>de</strong> el<br />

Corpus Bio<strong>Text</strong> Data 3 , herrami<strong>en</strong>tas <strong>de</strong> Procesami<strong>en</strong>to <strong>de</strong> L<strong>en</strong>guaje Natural como<br />

etiquetadores Part-of-Speech (POS) y un lematizador son obt<strong>en</strong>idos <strong>de</strong>s<strong>de</strong> GENIA [38] [39] y<br />

SNOWBALL 4 respectivam<strong>en</strong>te. Parra crear el Lattice Conceptual Semántico (LCS) se<br />

implem<strong>en</strong>tó una ext<strong>en</strong>sión <strong>en</strong> la herrami<strong>en</strong>ta Concepts 5 . A<strong>de</strong>más, los vectores basados <strong>en</strong> LSA<br />

se obti<strong>en</strong><strong>en</strong> usando la librería Infomap NLP Software [19].<br />

5.1 Experim<strong>en</strong>tos <strong>de</strong> Ajuste<br />

Para propósitos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y preprocesami<strong>en</strong>to se utilizó un 20% <strong>de</strong> los<br />

docum<strong>en</strong>tos <strong>de</strong>l copus original para ajustar los parámetros <strong>de</strong> nuestro mo<strong>de</strong>lo, que incluy<strong>en</strong>:<br />

Umbral LSA, Profundidad <strong>de</strong> Lattice Conceptual, etc. Adicionalm<strong>en</strong>te, valores <strong>de</strong> métricas<br />

tradicionales como support/confi<strong>de</strong>nce (minsupport y minconfi<strong>de</strong>nce) son sistemáticam<strong>en</strong>te<br />

ajustadas para los algoritmos ACLOSE y APRIORI, los cuales son utilizados para g<strong>en</strong>erar<br />

reglas <strong>de</strong> asociación relevantes [27].<br />

Manualm<strong>en</strong>te se examinan las reglas <strong>de</strong> asociación g<strong>en</strong>eradas, los patrones más<br />

relevantes son obt<strong>en</strong>idos con valores <strong>de</strong> minsupport y minconfi<strong>de</strong>nce m<strong>en</strong>ores a 1.0 y 0.1<br />

respectivam<strong>en</strong>te. A<strong>de</strong>más, el valor <strong>de</strong> Umbral LSA se ajustó analizando la calidad <strong>de</strong>l Lattice<br />

Conceptual Semántico creado <strong>en</strong> términos <strong>de</strong> conformidad <strong>de</strong> las reglas <strong>de</strong>scubiertas.<br />

Difer<strong>en</strong>tes valores <strong>de</strong>l Umbral LSA para crear el LCS y las mejores reglas obt<strong>en</strong>idas se pue<strong>de</strong>n<br />

apreciar <strong>en</strong> la tabla 10.<br />

Umbral LSA<br />

Regla <strong>Asociación</strong><br />

0.0 0.1 0.2 0.3 0.4 0.5<br />

segm<strong>en</strong>ts. --> transmembrane, Ori<strong>en</strong>tation 1 1 1 1 1 1<br />

fur --> Max-Planck-Institut, Zuchtungsforschung 1 1 1 1 2 1<br />

two-hybrid analyses --> cerevisiae, scre<strong>en</strong>ing 1 1 1 1 2 2<br />

protein --> Arf, GTPase-activating 1 1 1 1 3 2<br />

Tabla 10: Ranking Lattice Conceptual Semántico para valores increm<strong>en</strong>tales Umbral LSA.<br />

3<br />

http://biotext.berkeley.edu/data.html<br />

4<br />

http://snowball.tartarus.org/<br />

5 http://www.st.cs.uni-sb.<strong>de</strong>/~lindig/src/concepts.html<br />

56


Los experim<strong>en</strong>tos muestran que para valores <strong>de</strong>l Umbral LSA <strong>en</strong>tre 0.0 y 0.3 el LCS<br />

resulta ser irrelevante <strong>de</strong>bido a que sólo conti<strong>en</strong>e un nivel jerárquico, por lo tanto, la<br />

evaluación <strong>de</strong> reglas posee una conformidad uniforme. El promedio <strong>de</strong> profundidad <strong>de</strong>l LCS<br />

construido con difer<strong>en</strong>tes valores <strong>de</strong> Umbral LSA se muestra <strong>en</strong> la figura 25, <strong>en</strong> la cual el valor<br />

<strong>de</strong> 0.4 correspon<strong>de</strong> al mejor valor para evaluar las reglas con la estructura lattice.<br />

Profundidad<br />

3,5<br />

3<br />

2,5<br />

2<br />

1,5<br />

1<br />

0,5<br />

0<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0<br />

Umbral LSA<br />

Figura 25: Profundidad evaluación <strong>en</strong> reglas <strong>de</strong>scubiertas.<br />

En este esc<strong>en</strong>ario, la regla más interesante resulta ser<br />

“segm<strong>en</strong>ts” → “transmembrane, Ori<strong>en</strong>tation”, la cual es evaluada <strong>en</strong> primer lugar. Por otro<br />

lado, la regla “protein” → “Arf, GTPase-activating” es evaluada <strong>en</strong> la última posición <strong>de</strong>l<br />

ranking <strong>de</strong>bido a que es poco interesante. Para un Umbral LSA igual a 0.5 se g<strong>en</strong>eran dos<br />

posiciones difer<strong>en</strong>tes <strong>en</strong> el ranking, <strong>en</strong> primer lugar<br />

“segm<strong>en</strong>ts”→“transmembrane,Ori<strong>en</strong>tation” y “fur”→“Max-Planck-Institut,<br />

Zuchtungsforschung”. Por el contrario, las reglas “protein”→“Arf, GTPase-activating” y<br />

“two-hybrid analyses"→“cerevisiae, scre<strong>en</strong>ing” son evaluadas <strong>en</strong> la última posición.<br />

Para un conjunto difer<strong>en</strong>te <strong>de</strong> reglas g<strong>en</strong>eradas <strong>en</strong> la tabla 11 se aprecia que para<br />

valores <strong>de</strong> Umbral LSA m<strong>en</strong>ores a 0.2 claram<strong>en</strong>te afecta al ranking <strong>de</strong> evaluación <strong>de</strong>l mo<strong>de</strong>lo,<br />

por ejemplo, con Umbral LSA igual a 0.2 la regla “crassa”→“Neurospora” es evaluada <strong>en</strong><br />

primer lugar, mi<strong>en</strong>tras que la regla “virus” → “Vaccinia” y “actin” → “cerevisiae” se<br />

ubican <strong>en</strong> la última posición <strong>de</strong>l ranking. Por lo anterior, las reglas más relevantes son<br />

obt<strong>en</strong>idas <strong>de</strong>s<strong>de</strong> el LCS con Umbral LSA igual a 0.2 <strong>en</strong> términos <strong>de</strong> nivel <strong>de</strong> profundidad y<br />

difer<strong>en</strong>tes posiciones <strong>en</strong> el ranking.<br />

Umbral LSA<br />

Regla <strong>Asociación</strong><br />

0.0 0.1 0.2<br />

profilin --> cerevisiae 3 3 4<br />

actin --> cerevisiae 3 3 5<br />

glucan --> Golgi 4 4 2<br />

homolog --> Drosophila 2 2 3<br />

virus --> Vaccinia 1 3 5<br />

crassa --> Neurospora 4 1 1<br />

g<strong>en</strong>ome. --> Arabidopsis 4 1 4<br />

Tabla 11: Ranking Lattice Conceptual Semántico diversos valores Umbral LSA<br />

57


5.2 Experim<strong>en</strong>tos Finales<br />

Para evaluar la efectividad <strong>de</strong>l <strong>en</strong>foque propuesto se utilizaron las configuraciones <strong>de</strong><br />

los parámetros realizados anteriorm<strong>en</strong>te para ajustar el mo<strong>de</strong>lo y comparar los resultados<br />

fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> evaluación <strong>de</strong> patrones <strong>de</strong>l estado <strong>de</strong>l arte. Para esto, se utilizó el 80% <strong>de</strong>l<br />

corpus original, a<strong>de</strong>más, las evaluaciones obt<strong>en</strong>idas se correlacionan con opiniones <strong>de</strong><br />

humanos para investigar la efectividad <strong>de</strong> la evaluación automática <strong>de</strong>l grado <strong>de</strong> interés <strong>de</strong> las<br />

reglas obt<strong>en</strong>idas.<br />

Las reglas <strong>de</strong> asociación son g<strong>en</strong>eradas a partir <strong>de</strong> una combinación <strong>de</strong> 104 features<br />

con etiquetas POS <strong>de</strong>l tipo: nombre propio, nombre y adjetivo, dando un conjunto total <strong>de</strong> 153<br />

términos difer<strong>en</strong>tes. Finalm<strong>en</strong>te, se obti<strong>en</strong>e un total <strong>de</strong> 25 reglas <strong>de</strong> asociación con<br />

minsupport=1.0 (minssuport=2.0 produce resultados no significativos) y minconfi<strong>de</strong>nce=0.1<br />

tal como se muestra <strong>en</strong> la figura 26. Basado <strong>en</strong> los experim<strong>en</strong>tos <strong>de</strong> ajustes, el Umbral LSA se<br />

ajusta a 0.4 (ver figura 25).<br />

<strong>Reglas</strong> <strong>Asociación</strong> <strong>de</strong>scubiertas con minsup=1.0<br />

30<br />

25<br />

20<br />

<strong>Reglas</strong> 15<br />

10<br />

5<br />

0<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0<br />

Confi<strong>de</strong>nce<br />

Figura 26: <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong> <strong>de</strong>scubiertas<br />

La evaluación final y comparación se realizó utilizando los sigui<strong>en</strong>tes<br />

métodos/métricas <strong>de</strong> evaluación:<br />

M1: evaluación utilizando métricas tradicionales <strong>de</strong> support y confi<strong>de</strong>nce.<br />

M2: evaluación utilizando métrica <strong>de</strong> conformidad basada <strong>en</strong> lattice simple [6, 7, 20].<br />

M3: evaluación usando disimilaridad semántica <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> una<br />

regla basada <strong>en</strong> información provisto por LSA sin el uso <strong>de</strong> mo<strong>de</strong>lo externo <strong>de</strong> conocimi<strong>en</strong>to<br />

[3].<br />

M4: nuestra evaluación utilizando LCS para medir la conformidad <strong>de</strong> las reglas g<strong>en</strong>eradas.<br />

58


Al mismo tiempo cada regla es evaluada por dos expertos humanos <strong>en</strong> Biomedicina<br />

(E1 y E2) los cuales mi<strong>de</strong>n el grado <strong>de</strong> interés <strong>de</strong> las reglas realizando ranking <strong>de</strong>s<strong>de</strong> 1 (muy<br />

interesante) hasta 5 (sin interés). La evaluación realizada por los 4 métodos y la <strong>de</strong> los<br />

humanos se pue<strong>de</strong> apreciar <strong>en</strong> la tabla 12.<br />

<strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong><br />

59<br />

Métodos Expertos<br />

M1 M2 M3 M4 EXP1 EXP2<br />

aggregation. --> Huntington, disease-associated 4 3 23 1 1 2<br />

nuclear --> cerevisiae 4 2 21 1 2 3<br />

nuclear --> cerevisiae, pore 1 2 12 1 2 2<br />

protein. --> wild-type 4 2 13 1 2 3<br />

multidrug --> Pdr5p, ABC 4 2 10 1 1 1<br />

archaeal --> jannaschii, aIF6 4 3 7 1 1 1<br />

substrate. --> amino 3 1 24 2 3 3<br />

mammalian --> C, Class 4 2 25 2 3 1<br />

amino --> substrate. 3 2 11 2 5 5<br />

Two-hybrid analyses, system. --> cerevisiae 4 2 4 2 2 5<br />

cerevisiae. --> Saccharomyces 4 2 5 2 2 2<br />

stalk. --> cerevisiae, ribosomal 4 3 6 2 1 1<br />

cells. --> par<strong>en</strong>tal, Chemical 4 2 8 2 2 2<br />

motif --> Walker, nucleoti<strong>de</strong>-binding 4 2 9 2 5 5<br />

fungus --> mushroom-producing, Schizophyllum 4 3 12 2 5 1<br />

pore --> cerevisiae, nuclear 4 2 12 2 1 1<br />

g<strong>en</strong>etic data --> DSC1/MBF. 4 2 14 2 5 5<br />

stalk --> cerevisiae, ribosomal 4 2 16 2 4 3<br />

high --> cerevisiae, mobility 4 2 17 2 3 2<br />

system. --> cerevisiae, Two-hybrid analyses 4 2 18 2 4 5<br />

intermediate. --> coval<strong>en</strong>t, Biochemical 4 3 19 2 5 4<br />

jannaschii --> archaeal, aIF6 4 3 20 2 1 4<br />

domain --> LexA, DNA-binding 4 2 22 2 5 5<br />

albican --> Candida, strains 4 3 1 2 3 4<br />

box --> A, ATP-binding 4 2 2 2 5 5<br />

bacterium --> Gram-negative, Escherichia 4 1 3 3 1 1<br />

Tabla 12: Ranking <strong>de</strong> <strong>Reglas</strong> <strong>de</strong> <strong>Asociación</strong> según los diversos métodos<br />

La tabla 12 muestra que el método M1 evalúa <strong>en</strong> último lugar la regla “archaeal”<br />

→ “jannaschii, aIF6”, mi<strong>en</strong>tras que la misma regla es evaluada como muy interesante por<br />

ambos expertos, esto se pue<strong>de</strong> <strong>de</strong>ber al hecho que el método M1 utiliza sólo métricas basadas<br />

<strong>en</strong> estadísticas para evaluar las reglas, lo cual pue<strong>de</strong> ser no muy útil para medir el grado <strong>de</strong><br />

interés/novedad. Por otro lado, el método M2 g<strong>en</strong>era 3 evaluaciones difer<strong>en</strong>tes, <strong>en</strong> primer<br />

lugar evalúa a la reglas “bacterium” → “gram-negative, escherichia” y<br />

“substrate”→ “amino”, mi<strong>en</strong>tras que los expertos evalúan 7 reglas <strong>en</strong> primer lugar (sobre 9<br />

reglas difer<strong>en</strong>tes).


El método M3 evalúa <strong>en</strong> primer lugar la regla “albican” → “candida, straits”, sin<br />

embargo la misma regla es consi<strong>de</strong>rada como poco interesante por ambos expertos (rango<br />

<strong>en</strong>tre 3 y 4). Las reglas evaluadas utilizando nuestro método M4 se pue<strong>de</strong>n <strong>en</strong>contrar <strong>en</strong> tres<br />

posiciones <strong>de</strong>l ranking, lo cual sugiere algunas coinci<strong>de</strong>ncias <strong>en</strong> algunos lugares. Por lo tanto,<br />

nuestro mo<strong>de</strong>lo sitúa las evaluaciones mejores (posiciones altas) a aquellas reglas que podrían<br />

ser más interesantes. Debido a que no existe una absoluta noción <strong>de</strong>l grado <strong>de</strong> interés, la<br />

evaluación y ranking producidos por los 4 mo<strong>de</strong>los fueron correlaciones con evaluación <strong>de</strong><br />

expertos humanos. Para lo anterior, se calculo la correlación <strong>de</strong> Speraman (r) para todas las<br />

evaluaciones tal como se muestra <strong>en</strong> la tabla 13.<br />

Métodos<br />

Expertos M1 M2 M3 M4<br />

EXP1 0.01 -0.05 0.13 0.32<br />

EXP2 0.02 -0.04 0.07 0.15<br />

Tabla 13: Correlación <strong>Evaluación</strong> Expertos versus <strong>Evaluación</strong> Métodos<br />

En g<strong>en</strong>eral, se aprecia una bu<strong>en</strong>a correlación <strong>en</strong>tre los expertos y nuestro método<br />

comprado con el resto <strong>de</strong> lo métodos (p < 0.01, t=3.461). A<strong>de</strong>más, el método <strong>de</strong> evaluación<br />

basado <strong>en</strong> Lattice mostró casi nula concordancia con la evaluación real. Nuestro <strong>en</strong>foque (M4)<br />

muestra una habilidad predictiva para evaluar patrones, aunque un experto fue más exig<strong>en</strong>te<br />

que el otro. Esto se pue<strong>de</strong> <strong>de</strong>ber al hecho que E1 ti<strong>en</strong>e más <strong>de</strong> 20 años <strong>de</strong> experi<strong>en</strong>cia, por lo<br />

tanto ti<strong>en</strong>e un mayor conocimi<strong>en</strong>to para evaluar los patrones.<br />

Por otro lado, el método basado <strong>en</strong> LSA (M3) se correlaciona mejor con la evaluación<br />

<strong>de</strong> los expertos humanos que el método basado <strong>en</strong> lattices (M2) pero peor que nuestro método<br />

(M4). La baja correlación <strong>de</strong>l método M2 se pue<strong>de</strong> <strong>de</strong>ber a que éste consi<strong>de</strong>ra sólo relaciones<br />

estructurales y el método no es capaz <strong>de</strong> <strong>de</strong>tectar las relaciones semánticas implícitas<br />

exist<strong>en</strong>tes <strong>en</strong> la conexión <strong>en</strong>tre términos.<br />

Los resultados sugier<strong>en</strong> que nuestro <strong>en</strong>foque es efectivo al evaluar el grado <strong>de</strong> interés<br />

<strong>de</strong> patrones simples <strong>de</strong>scubiertos <strong>en</strong> tareas <strong>de</strong> minería <strong>de</strong> textos <strong>en</strong> comparación con otros<br />

métodos y evaluaciones humanas. A<strong>de</strong>más, la combinación <strong>de</strong> métodos basados <strong>en</strong> Lattices y<br />

Semántica basada <strong>en</strong> corpus resulta ser más promisoria <strong>en</strong> evaluación <strong>de</strong> patrones<br />

<strong>de</strong>scubiertos al ser comparados con ambos métodos separadam<strong>en</strong>te (LSA y métodos basados<br />

<strong>en</strong> Lattice).<br />

60


6. Conclusiones<br />

En esta tesis un nuevo mo<strong>de</strong>lo que combina métodos basado <strong>en</strong> Lattices y Semántica<br />

basada <strong>en</strong> corpus es propuesto para evaluar automáticam<strong>en</strong>te el grado <strong>de</strong> interés <strong>de</strong> patrones<br />

<strong>de</strong>scubierto <strong>en</strong> tareas <strong>de</strong> minería <strong>de</strong> textos.<br />

El mo<strong>de</strong>lo utiliza LSA con el objetivo <strong>de</strong> realizar un “matching” aproximado <strong>de</strong>l<br />

conjunto inclusión cuando construye Estructuras Conceptuales <strong>en</strong> forma <strong>de</strong> Lattices. Lo<br />

anterior significa que el <strong>en</strong>foque propuesto es más robusto para incluir relaciones semánticas<br />

que se <strong>en</strong>cu<strong>en</strong>tran implícitam<strong>en</strong>te <strong>en</strong> los textos y no necesariam<strong>en</strong>te <strong>en</strong>lazadas con relaciones<br />

<strong>de</strong> g<strong>en</strong>eralización/especialización. Nuestra estrategia construye un Lattice Conceptual<br />

Semántico (LCS) para medir la conformidad <strong>de</strong> las reglas <strong>de</strong> asociación basadas <strong>en</strong> las<br />

métricas propuesta por Toussaint et al. [6, 7, 20] y por Atkinson et al. [3], sin utilizar fu<strong>en</strong>te<br />

<strong>de</strong> conocimi<strong>en</strong>tos externos.<br />

La evaluación <strong>de</strong>l grado <strong>de</strong> interés <strong>de</strong> las reglas utilizando LCS se correlacionó <strong>de</strong><br />

mejor forma con evaluación <strong>de</strong> humanos comparado con otros métodos <strong>de</strong> evaluación <strong>de</strong>l<br />

estado <strong>de</strong>l arte. A<strong>de</strong>más, el mo<strong>de</strong>lo al ser in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> recursos externos y basado <strong>en</strong><br />

semántica basada <strong>en</strong> corpus se consi<strong>de</strong>ra como un <strong>en</strong>foque in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l dominio.<br />

El <strong>en</strong>foque <strong>de</strong> minado <strong>de</strong> textos basado <strong>en</strong> Lattice Conceptual Semántico mostró<br />

mejores resultados fr<strong>en</strong>te al sistema <strong>de</strong> minería <strong>de</strong> textos tradicional y el mo<strong>de</strong>lo <strong>de</strong> Toussaint<br />

[6, 7, 20] <strong>en</strong> términos <strong>de</strong> la correlación y su po<strong>de</strong>r predictivo. Esto podría <strong>de</strong>berse a que el<br />

mo<strong>de</strong>lo Lattice Conceptual Semántico incorpora un mo<strong>de</strong>lo <strong>de</strong> conocimi<strong>en</strong>to semántico <strong>de</strong>l<br />

dominio que permite evaluar el grado <strong>de</strong> interés <strong>de</strong> las reglas extraídas mediante una nueva<br />

métrica <strong>de</strong> conformidad semántica que consi<strong>de</strong>ra la relación <strong>de</strong> g<strong>en</strong>eralización/especialización<br />

exist<strong>en</strong>te <strong>en</strong>tre el antece<strong>de</strong>nte y el consecu<strong>en</strong>te <strong>de</strong> las reglas <strong>de</strong>scubiertas y la similaridad<br />

semántica <strong>en</strong>tre ellos.<br />

La contribución <strong>de</strong> esta tesis se manifiesta <strong>en</strong> el <strong>de</strong>sarrollo <strong>de</strong> un nuevo mo<strong>de</strong>lo <strong>de</strong><br />

evaluación que combina dos técnicas: Análisis Semántico Lat<strong>en</strong>te con Estructuras<br />

Conceptuales. El mo<strong>de</strong>lo <strong>de</strong>sarrollado obti<strong>en</strong>e mejores resultados <strong>de</strong> evaluación fr<strong>en</strong>te al<br />

sistema <strong>de</strong> minería <strong>de</strong> textos tradicional y el mo<strong>de</strong>lo <strong>de</strong> Toussaint et al. [6, 7, 20]<br />

Como trabajo futuro, resulta interesante complem<strong>en</strong>tar el mo<strong>de</strong>lo <strong>de</strong> Lattice<br />

Conceptual Semántico con alguna técnica que permita visualizar los patrones <strong>de</strong>scubiertos y<br />

asociarlos <strong>en</strong> el contexto <strong>de</strong>l que fueron extraídos. Lo anterior permitiría al humano que ti<strong>en</strong>e<br />

que evaluar y analizar los patrones po<strong>de</strong>r relacionarlos con los contextos <strong>en</strong> los cuales fueron<br />

<strong>de</strong>scubiertos, logrando así, un análisis con más nivel <strong>de</strong> <strong>de</strong>talle.<br />

61


7. Refer<strong>en</strong>cias<br />

[1] R. Agrawal. T. Imielinski, A. Swami. Fast algorithms for mining association rules.<br />

Confer<strong>en</strong>ce on Very Large Databases (VLDB), Santiago, Chile, 2003.<br />

[2] R. Agrawal, T. Imielinski, A. Swami. <strong>Mining</strong> association rules betwe<strong>en</strong> sets of items in<br />

large databases. Confer<strong>en</strong>ce on Managem<strong>en</strong>t of Data. Washington, 1993.<br />

[3] J. Atkinson, C. Mellish, S. Aitk<strong>en</strong>. Combining information extraction with g<strong>en</strong>etic<br />

algorithms for text mining. IEEE Intellig<strong>en</strong>t Systems and Their Applications, 19(3): pp.<br />

2–30, 2004.<br />

[4] S. Basu. Evaluating the Novelty of <strong>Text</strong>-Mined Rules Using Lexical Knowledge, Proc. 7th<br />

Int’l Conf. Knowledge Discovery and Data <strong>Mining</strong>, ACM Press, pp 233–238, 2001.<br />

[5] C. Blake, W. Pratt. Better rules, fewer features: A semantic approach to selecting features<br />

from <strong>Text</strong>. ICDM, pp. 59-66, 2001.<br />

[6] H. Cherfil, A. Napoli, Y. Toussaint. Classifying Association Rules with respect to Domain<br />

Knowledge for text <strong>Mining</strong>. pp. 263-274, EGC 2005.<br />

[7] H. Cherfil, A. Napoli, Y. Toussaint. Towards a <strong>Text</strong> <strong>Mining</strong> Methodology Using Frequ<strong>en</strong>t<br />

Itemsets and Association Rule Extraction. Journées <strong>de</strong> l’informatique Messine(JIM-2003),<br />

Knowledge Discovery and Discrete Mathematics, metz, pp. 285-294, 2003.<br />

[8] R.Cutting, D. Karger, J. Pe<strong>de</strong>rs<strong>en</strong>, J. Tukey. Scatter/Gather: A Cluster-based Approach to<br />

Browsing Large Docum<strong>en</strong>t Collections. In Proceedings of the Fifte<strong>en</strong>th Annual International<br />

ACM SIGIR Confer<strong>en</strong>ce, pp. 318-329,1992.<br />

[9] B. Davey, H. Priestley. Introduction to Lattices and Or<strong>de</strong>r. Cambridge University Press,<br />

1990.<br />

[10] K. Deb. Multi-Objective Optimization using Evolutionary Algorithms. Wiley, 2002.<br />

[11] A. Don, E. Zheleva, M. Gregory, S. Tarkan, L. Auvil, T. Clem<strong>en</strong>t, B. Shnei<strong>de</strong>rman, C.<br />

Plaisant. Discovering interesting usage patterns in text collections: Integrating text mining<br />

with visualization. Confer<strong>en</strong>ce on Information and Knowledge Managem<strong>en</strong>t. Lisbon, Portugal,<br />

pp. 213-222, 2007.<br />

[12] U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From Data <strong>Mining</strong> to Knowledge Discovery<br />

in Databases. AI Magazine, 17: pp. 37-54,1996.<br />

[13] C. Fellbaum. WordNet: An Electronic Lexical Database. MIT Press, Cambridge, MA,<br />

1998.<br />

[14] B.Ganter, R. Wille: Applied Lattice Theory: Formal Concept Analysis. Preprints, 1997.<br />

62


[15] L. Guil<strong>de</strong>r. Automated Part of Speech Tagging: A Brief Overview. Handout, Georgetown<br />

University, 1995.<br />

[16] R. Gutiérrez. Análisis Semántico Lat<strong>en</strong>te: ¿Teoría psicológica <strong>de</strong>l significado?. Revista<br />

Signos, 38(59), pp. 303-323 , 2005.<br />

[17] J. Han, M. Kamber. Data <strong>Mining</strong>: Concepts and Techniques. Morgan Kaufmann, 2001.<br />

[18] M. Hearst. Untangling text data mining. In Proceedings of the 37th Annual Meeting of<br />

the Association for Computational Linguistics (ACL-99), pp. 3-10, College Park, MD, June<br />

1999.<br />

[19] Infomap NLP Software. “An Op<strong>en</strong>-Source Package for Natural Language Processing”.<br />

Infomap Project, Computational Semantics Lab, Stanford University’ C<strong>en</strong>ter for the Study of<br />

Language and Information, USA, 2004.<br />

[20] D. Janetzko, H. Cherfi, R. K<strong>en</strong>nke, A. Napoli, Y. Toussaint. Knowledge-based Selection<br />

of Association Rules for <strong>Text</strong> <strong>Mining</strong>. 16th European Confer<strong>en</strong>ce on Artificial Intellig<strong>en</strong>ce -<br />

ECAI'04. (Val<strong>en</strong>cia, Spain), pp. 485-489, IOS Press, 2004.<br />

[21] W. Kintsch. On the notions of theme and topic in psychological process mo<strong>de</strong>ls of text<br />

compreh<strong>en</strong>sion. En Louwerse, M. y van Peer, W. (Eds.) Thematics, Interdisciplinary Studies,<br />

pp. 157-170. Amsterdam: B<strong>en</strong>jamins, 1999.<br />

[22] T. Landauer, P. Foltz, D. Laham. Handbook of Lat<strong>en</strong>t Semantic Analysis. Lawr<strong>en</strong>ce<br />

Erlbaum Associates, 2007.<br />

[23] C. Linding. Fast concept analysis. Contributions to ICCS 2000, Working with Conceptual<br />

Structures, Germany, 2000.<br />

[24] J. Lovins. Developm<strong>en</strong>t of a Stemming Algorithm, Mechanical Translation and<br />

Computational Linguistics, 11, pp. 22-31, 1968.<br />

[25] R. Mooney, U. Nahm. <strong>Text</strong> <strong>Mining</strong> with Information Extraction, Multilingualism and<br />

Electronic Language Managem<strong>en</strong>t: Proceedings of the 4th International MIDP Colloquium,<br />

22-23 September 2003, Bloemfontein, South Africa, Daelemans, W., du Plessis, T., Snyman,<br />

C. and Teck, L. (Eds.), pp. 141-160, Van Schaik Pub., South Africa, 2005.<br />

[26] U. Nahm, R. Mooney. A mutually b<strong>en</strong>eficial integration of data mining and information<br />

extraction. In Proceedings of the Sev<strong>en</strong>te<strong>en</strong>th National Confer<strong>en</strong>ce on Artificial Intellig<strong>en</strong>ce<br />

(AAAI-2000), pp. 627-632, Austin, TX, July 2000.<br />

[27] D. Olson and D. Del<strong>en</strong>. Advanced Data <strong>Mining</strong> Techniques. Springer, 2008.<br />

[28] P. Paice. Another Stemmer, SIGIR Forum, 24, pp. 56-61, 1990.<br />

63


[29] N. Pasquier, Y. Basti<strong>de</strong>, R. Taouil, L. Lakhal. Pruning closed itemset lattices for<br />

association rules. International Journal of Information Systems 24, pp. 25-46, 1999.<br />

[30] N. Pasquier, Y. Basti<strong>de</strong>, R. Taouil, L. Lakhal. Discovering frequ<strong>en</strong>t closed itemsets for<br />

association rules. In Beeri, C., Buneman, P., eds.: Database Theory – ICDT’99 Proceedings,<br />

7 th International Confer<strong>en</strong>ce, Jerusalem, Israel. Lecture Notes in Computer Sci<strong>en</strong>ce 1540, pp.<br />

398-416, Springer 1999.<br />

[31] U. Priss. Introduction to and Overview of Formal Concept Analysis. Annual Review of<br />

Information Sci<strong>en</strong>ce and Technology, Vol. 40, 2006.<br />

[32] M. Porter. An Algorithm for Suffix Stripping, program. Program: electronic library and<br />

information systems. 40(3): pp. 211-218, 2006.<br />

[33] R. Srikant and R. Agrawal. <strong>Mining</strong> G<strong>en</strong>eralized Association Rules, Proc. of the 21st Int'l<br />

Confer<strong>en</strong>ce on Very Large Databases, Zurich, Switzerland, Sep. 1995.<br />

[34] A.Stavrianou, P. Andritsos, N. Nicoloyannis. Overview and Semantic Issues of <strong>Text</strong><br />

<strong>Mining</strong>. ACM SIGMOD, pp: 23 – 34, 2007.<br />

[35] D. Swanson, N. Smalheiser. Assesing a gap in the biomedical literature: magnesium<br />

<strong>de</strong>fici<strong>en</strong>cy and neurologic disease. Neurosci<strong>en</strong>ce Research Communications 15 (1), pp. 1-9,<br />

1994.<br />

[36] D. Swanson, N. Smalheiser. An interactive system for finding complemetary literature: a<br />

stimulus to sci<strong>en</strong>tific discovery. Artificial Intellig<strong>en</strong>ce 91, pp. 183-203, 1997.<br />

[37] A Tan. <strong>Text</strong> mining: The state of the art and the challanges. Proceedings of the PAKDD<br />

1999 Workshop on Knowledge Discovery from Advanced Databases, pp. 65–70, 1999.<br />

[38] Y. Tateisi, T. Jun'ichi. GENIA Annotation Gui<strong>de</strong>lines for Tok<strong>en</strong>ization and POS tagging.<br />

Technical Report (TR-NLP-UT-2006-4). Tsujii Laboratory, University of Tokyo, 2006.<br />

[39] Y. Tateisi, T. Jun'ichi. Part-of-Speech Annotation of Biology Research Abstracts. In the<br />

Proceedings of 4th International Confer<strong>en</strong>ce on Language Resource and Evaluation<br />

(LREC2004). IV. Lisbon, Portugal, pp. 1267-1270, May 2004.<br />

[40] R. Wille. Restructuring lattices theory: an approach based on hierarchies of concepts. In I.<br />

Rival, editor, Or<strong>de</strong>red Sets, pp. 445-470. Rei<strong>de</strong>l, Dordrecht-Boston, 1982.<br />

[41] R. Wille. Concept lattices and conceptual knowledge systems. Computers and<br />

Mathematics with Applications, 23, pp. 493-515, 1992.<br />

[42] K. Wolff. A first Course in Formal Concept Analysis. Proceedings SoftStat'93. Gustav<br />

Fischer Verlag., 1994.<br />

[43] E. Zitzler, L. Thiele. An evolutionary algorithm for multiobjective optimization: The<br />

str<strong>en</strong>gth pareto approach, Swiss Fed. Inst. Technol. (ETH), Zurich, Switzerland, 43, 1998.<br />

64


8. Docum<strong>en</strong>tación Anexa<br />

8.1 Lista StopWords<br />

a be<strong>en</strong> <strong>en</strong>ough hereupon much please there whatever<br />

about before etc hers must put thereafter wh<strong>en</strong><br />

above beforehand ev<strong>en</strong> herself my rather thereby wh<strong>en</strong>ce<br />

across behind ever him myself re therefore wh<strong>en</strong>ever<br />

after being every himself name same therein where<br />

afterwards below everyone his namely see thereupon whereafter<br />

again besi<strong>de</strong> everything how neither seem these whereas<br />

against besi<strong>de</strong>s everywhere however never seemed they whereby<br />

all betwe<strong>en</strong> except hundred nevertheless seeming thick wherein<br />

almost beyond few i next seems thin whereupon<br />

alone bill fifte<strong>en</strong> ie nine serious third wherever<br />

along both fify if no several this whether<br />

already bottom fill in nobody she those which<br />

also but find inc none should though while<br />

although by fire in<strong>de</strong>ed noone show three whither<br />

always call first interest nor si<strong>de</strong> through who<br />

am can five into not since throughout whoever<br />

among cannot for is nothing sincere thru whole<br />

amongst cant former it now six thus whom<br />

amoungst co formerly its nowhere sixty to whose<br />

amount computer forty itself of so together why<br />

an con found keep off some too will<br />

and could four last oft<strong>en</strong> somehow top with<br />

another couldnt from latter on someone toward within<br />

any cry front latterly once something towards without<br />

anyhow <strong>de</strong> full least one sometime twelve would<br />

anyone <strong>de</strong>scribe further less only sometimes tw<strong>en</strong>ty yet<br />

anything <strong>de</strong>tail get ltd onto somewhere two you<br />

anyway do give ma<strong>de</strong> or still un your<br />

anywhere done go many other such un<strong>de</strong>r yours<br />

are down had may others system until yourself<br />

around due has me otherwise take up yourselves<br />

as during hasnt meanwhile our t<strong>en</strong> upon<br />

at each have might ours than us<br />

back eg he mill ourselves that very<br />

be eight h<strong>en</strong>ce mine out the via<br />

became either her more over their was<br />

because elev<strong>en</strong> here moreover own them we<br />

become else hereafter most part themselves well<br />

becomes elsewhere hereby mostly per th<strong>en</strong> were<br />

becoming empty herein move perhaps th<strong>en</strong>ce what<br />

65

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!