13.07.2015 Views

Aprendizaje competitivo LVQ para la desambiguación léxica - sepln

Aprendizaje competitivo LVQ para la desambiguación léxica - sepln

Aprendizaje competitivo LVQ para la desambiguación léxica - sepln

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

costosa (Kilgarriff y Palmer, 2000) se hanempleado también corpus no-anotados(Schütze, 1998, Pedersen y Bruce, 1997).Finalmente, recientes trabajos proponen <strong>la</strong>combinación de varias fuentes de conocimientoléxico (estructurado y no estructurado) así comodiferentes técnicas y heurísticas <strong>para</strong> explotardicho conocimiento (Wilks y Stevenson, 1998;Mihalcea y Moldovan, 2000, Ureña, Buenaga yGómez, 2001).En WSD, <strong>la</strong>s técnicas aplicadas incluyen <strong>la</strong>utilización de métodos de aprendizajeautomático. Los métodos de aprendizajeaplicados hasta el momento van desde losalgoritmos de aprendizaje simbólico clásicos(árboles de decisión, inducción de reg<strong>la</strong>s...) alos métodos subsimbólicos (redes neuronales,algoritmos genéticos...) pasando por losmétodos de aprendizaje estocástico y por e<strong>la</strong>prendizaje no supervisado (como por ejemplo<strong>la</strong>s técnicas de clustering).En este trabajo se propone el uso de redesneuronales artificiales (RNA) <strong>para</strong> resolver <strong>la</strong>ambigüedad léxica. Concretamente, se aplica e<strong>la</strong>lgoritmo de aprendizaje por cuantificaciónvectorial (<strong>LVQ</strong> - Learning Vector Quatization).La gran ventaja de <strong>la</strong>s RNA es su capacidadde aprender a partir de variables que identificanel problema, extrayendo los datos necesarios<strong>para</strong> generar un modelo y una red capaz deresolverlo y, sobre todo, partiendo de unconocimiento mínimo de <strong>la</strong> esencia delproblema. De hecho, hay varios trabajos quedemuestran que <strong>la</strong>s RNA son al menos taneficientes como otros algoritmos de aprendizajeen muchos problemas (At<strong>la</strong>s et al., 1989;Shavlik, Mooney y Towell, 1991)El resto del artículo se organiza como sigue:En primer lugar, se presenta una brevedescripción de los trabajos más relevantes enWSD usando RNA. La siguiente sección, sedescribe el algoritmo <strong>LVQ</strong> utilizado en <strong>la</strong>implementación de nuestro desambiguador. Acontinuación, se muestran los experimentosrealizados así como los resultados obtenidos.Por último, se presentan <strong>la</strong>s conclusiones y lostrabajos futuros.2 Redes neuronales aplicadas a WSDLas RNA fueron originalmente una simu<strong>la</strong>ciónabstracta de los sistemas nerviosos biológicos,formados por un conjunto de unidades l<strong>la</strong>madas“neuronas” o “nodos” dispuestas en distintascapas y conectadas unas con otras medianteunos pesos de conexión que permiten almacenar<strong>la</strong> información. Estas conexiones tienen unagran semejanza con <strong>la</strong>s “dendritas” y los“axones” en los sistemas nerviosos biológicos.Las RNA pueden adquirir, almacenar y utilizarconocimiento experimental, obtenido a partir deejemplos. Para ello, hacen uso de un algoritmode aprendizaje mediante el cual se ajustan lospesos de conexión entre neuronas.El procesamiento de información en unaRNA comprende, generalmente, dos fases: unafase de entrenamiento y una fase de producción.Durante el entrenamiento, <strong>la</strong> red ajusta lospesos de conexión entre <strong>la</strong>s distintas unidadessiguiendo un determinado algoritmo deaprendizaje. El objetivo del entrenamiento esencontrar un conjunto de pesos <strong>para</strong> los que <strong>la</strong>aplicación de un conjunto de vectores deentrada genere el conjunto de salidas deseadas.Una vez que <strong>la</strong> red se estabiliza, es decir, nohay modificación de los pesos, comienza <strong>la</strong>explotación de <strong>la</strong> red. Se aplican unos valoresde entrada, se propaga <strong>la</strong> señal a través de <strong>la</strong> redy se obtienen los valores de salida.Aunque <strong>la</strong> bibliografía sobre RNA es muyextensa, una buena introducción se puedeencontrar en (Fiesler y Beale, 1997).El interés generado por <strong>la</strong>s RNA tiene sujustificación en <strong>la</strong>s fascinantes propiedades queposeen entre <strong>la</strong>s que destacan <strong>la</strong> capacidad deadaptación y autoorganización, memoriadistribuida, procesamiento <strong>para</strong>lelo y capacidadde generalización. Debido precisamente a estascaracterísticas, <strong>la</strong>s RNA tienen aplicación enuna gran variedad de disciplinas comoingeniería, física, biología, medicina, industria,finanzas… De hecho, <strong>la</strong>s RNA se han utilizadocon éxito <strong>para</strong> resolver un gran número deproblemas del mundo real, existiendo unaamplia gama de aplicaciones comercialesdisponibles <strong>para</strong> distintas áreas. Por ejemplo,han sido utilizadas con éxito en tareas dec<strong>la</strong>sificación de patrones (Bishop, 1995),tratamiento de señales (Widrow y Stearns,1985), optimización (Cichocki y Unbehauen.1993)...Si bien, <strong>la</strong> cantidad de trabajos re<strong>la</strong>cionadoscon <strong>la</strong> aplicaciones de RNA en muchos camposde <strong>la</strong> inteligencia artificial es desorbitada,concretamente, en el campo del procesamientodel lenguaje natural (PLN) <strong>la</strong> investigación noestá aún muy desarrol<strong>la</strong>da. No obstante, en <strong>la</strong>última década parece que el interés porre<strong>la</strong>cionar <strong>la</strong>s dos disciplinas ha crecido demanera espectacu<strong>la</strong>r como se puede comprobar


en (Robert, Moisl y Somers, 2000). Sin duda, eltipo de red más utilizado <strong>para</strong> <strong>la</strong>s aplicacionesPLN es <strong>la</strong> red de propagación hacia atrás (BPN– BackPropagation Network) descrita en(McClel<strong>la</strong>nd y Rumelhart 1986), aunqueexisten algunos intentos por utilizar otrasarquitecturas. Algunos ejemplos del uso deRNA en tareas de PLN se presentan acontinuación.En (Martín, García y Ureña, 2003) sepresenta un modelo neuronal basado enaprendizaje <strong>competitivo</strong> que permite <strong>la</strong>categorización de textos multilingües. Ruiz ySrinivasan (2002) utilizan un c<strong>la</strong>sificadorjerárquico de RNA en un sistema derecuperación de información. En (Kohonen etal., 2000) se describe un sistema basado en e<strong>la</strong>lgoritmo SOM (self-organizing map) <strong>para</strong>autoorganizar grandes cantidades dedocumentos teniendo en cuenta sus similitudestextuales. Un ejemplo de resolución de anáforasse puede encontrar en (Allen, 1987).Concretamente, <strong>para</strong> WSD se han aplicadovarios modelos de red aunque <strong>la</strong> mayoría sonextensiones de <strong>la</strong> BPN que utilizan <strong>la</strong>s neuronasdistribuidas en varias capas (redes multicapa) ycon conexiones tipo feedforward (<strong>la</strong>s señales de<strong>la</strong>s neuronas se propagan desde <strong>la</strong>s capasinferiores hasta <strong>la</strong>s capas superiores).Los primeros trabajos fueron realizados porCottrell y Small (1983). En Véronis e Ide(1990) se usan dos aproximacionesindependientes <strong>para</strong> WSD, los diccionarioselectrónicos y <strong>la</strong>s RNA. Otro trabajointeresante, fue presentado por Towell yVoorhees (1998) que utilizan una red BPN <strong>para</strong>aprender el contexto de pa<strong>la</strong>bras muy ambiguas.Recientemente, Martín, García y Ureña (2002)han utilizado una red neuronal basado en elmodelo de Kohonen que utiliza aprendizaje<strong>competitivo</strong> supervisado <strong>para</strong> WSD.3 Algoritmo <strong>LVQ</strong>En este trabajo se utiliza el algoritmo <strong>LVQ</strong> <strong>para</strong>WSD. El motivo de utilizar este algoritmo esque con él se han obtenido muy buenosresultados en otras tareas de PLN comocategorización de texto (Martín, García y Ureña2003), CLIR (Cross Lingual InformationRetrieval) (Martínez et al., 2002) e, incluso, enWSD (Martín, García y Ureña 2002).Este modelo neuronal <strong>LVQ</strong> utiliza unalgoritmo de aprendizaje <strong>competitivo</strong>. En e<strong>la</strong>prendizaje <strong>competitivo</strong> sólo una unidad desalida está activa en cada momento. Todas <strong>la</strong>sneuronas de una red competitiva recibenidéntica información de <strong>la</strong>s unidades de entradapero <strong>la</strong>s unidades de salida compiten entre sí<strong>para</strong> ser <strong>la</strong> que se activa como respuesta a esaseñal de entrada. Cada neurona se especializaen un área diferente del espacio de entradas ysus salidas se pueden utilizar <strong>para</strong> representarde alguna manera <strong>la</strong> estructura del espacio deentradas (autoorganización).En 1982 Teuvo Kohonen presenta unmodelo de red neuronal competitiva (Kohonen,1995) con capacidad <strong>para</strong> formar mapas decaracterísticas a través de una organizaciónmatricial de neuronas artificiales. El modelopresenta dos variantes denominadas SOM (SelfOrganizing Map) y <strong>LVQ</strong> (Learning VectorQuantization). La diferencia fundamental radicaen el tipo de aprendizaje utilizado. Mientras queel algoritmo <strong>LVQ</strong> es supervisado, el modeloSOM no requiere el conocimiento de los datosde salida.En cuanto a <strong>la</strong> arquitectura de red, el modelo<strong>LVQ</strong> utiliza una red de dos capas con Nneuronas de entrada y M neuronas de salida.Cada una de <strong>la</strong>s N neuronas de entrada seconecta a <strong>la</strong>s M de salida mediante conexioneshacia de<strong>la</strong>nte (feedforward). Entre <strong>la</strong>s neuronasde <strong>la</strong> capa de salida existen conexiones<strong>la</strong>terales, ya que cada una de el<strong>la</strong>s tieneinfluencia sobre sus vecinas a <strong>la</strong> hora decalcu<strong>la</strong>r los pesos de <strong>la</strong>s conexiones haciade<strong>la</strong>nte entre <strong>la</strong> capa de salida y <strong>la</strong> capa deentrada.Para que <strong>la</strong> red <strong>LVQ</strong> aprenda un conjunto depatrones de entrada es necesario una fase deentrenamiento en <strong>la</strong> que se ajusten los pesos deconexión entre <strong>la</strong> capa de entrada y <strong>la</strong> capa desalida. Estos pesos se representan mediante unmatriz W de NxM pesos. La red utiliza unaprendizaje <strong>competitivo</strong> de manera que <strong>la</strong>sneuronas de <strong>la</strong> capa de salida compiten entre síquedando una única unidad activa ante unadeterminada información de entrada a <strong>la</strong> red.Los pesos de conexión se ajustan en función de<strong>la</strong> neurona que haya resultado ganadora yúnicamente se permite que aprenda a dicha <strong>la</strong>unidad.La red <strong>LVQ</strong> utiliza aprendizaje supervisadopor lo que requiere un conjunto de vectores deentrenamiento que describan el comportamientode <strong>la</strong> red que se desea aprender {x 1 ,t 1 },{x 2 ,t 2 }...{x L ,t L }. Durante <strong>la</strong> fase deentrenamiento se presentan a <strong>la</strong> red esteconjunto de informaciones de entrada (vectores


de entrenamiento) <strong>para</strong> que ésta establezca enfunción de <strong>la</strong> semejanza entre los datos <strong>la</strong>sdiferentes categorías (una por neurona desalida), que servirían durante <strong>la</strong> fase defuncionamiento <strong>para</strong> realizar <strong>la</strong> c<strong>la</strong>sificación denuevos datos que se presenten a <strong>la</strong> red. Losvalores finales de los pesos de <strong>la</strong>s conexionesentre cada neurona de <strong>la</strong> capa de salida con <strong>la</strong>sde entrada se corresponderán con los valores delos componentes del vector de aprendizaje queconsigue activar <strong>la</strong> neurona correspondiente.El algoritmo de aprendizaje utilizadofunciona de <strong>la</strong> siguiente manera (fórmu<strong>la</strong> 1). Six i es c<strong>la</strong>sificado correctamente, los pesos de <strong>la</strong>neurona ganadora, c, se hacen tender hacia x iacercando el vector de w c al vector x i . Si por elcontrario, x i es c<strong>la</strong>sificado incorrectamente, unaunidad equivocada ganó <strong>la</strong> competición y por lotanto sus pesos se deben alejar de x i .⎧wc+ α() t ⋅ ( xi− wc) si c = dwc= ⎨(1)⎩wc− α() t ⋅ ( xi− wc) si c ≠ ddonde α(t) es el ratio de aprendizaje, siendo0


SemCor 1.6BR1 BR2 BRV TotalPa<strong>la</strong>bras etiquetadas 198.796 160.936 316.814 676.546Pa<strong>la</strong>bras con106.639 86.000 41.497 234.136punteros a WNPunteros a nombres 48.835 39.477 0 88.312Punteros a verbos 26.686 21.804 41.525 90.015Punteros a adjetivos 9.886 7.539 0 17.425Punteros a adverbios 11.347 9.245 0 20.592Sentidos distintos11.399en nombres9.546 0 20.945Sentidos distintosen verbosSentidos distintosen adjetivosSentidos distintosen adverbios4.2 WordNet5.334 4.790 6.520 16.6441.754 1.463 0 3.2171.455 1.377 0 2.832Tab<strong>la</strong> 1: Datos de SemCor 1.6De WordNet 1.6 (Fellbaum, 1998) se hanincorporado <strong>la</strong>s re<strong>la</strong>ciones semánticas desinonimia, antonimia, hiperonimia, hiponimia,holonimia, meronimia y coordinados.Como se muestra en Ureña, García yMartínez (2001) los sinónimos, antónimos,merónimos, etc. de una pa<strong>la</strong>bra dada puedenfigurar en su contexto. La forma de incorporaresta información al entrenamiento ha consistidoen crear párrafos con <strong>la</strong>s pa<strong>la</strong>bras de cadare<strong>la</strong>ción. Así, por ejemplo, <strong>para</strong> el nombre“sense” se han generado 7 párrafos con lossinónimos de cada uno de sus 7 sentidos, 7párrafos más con toda <strong>la</strong> jerarquía dehiperónimos correspondiente a cada sentido yasí, <strong>para</strong> <strong>la</strong>s re<strong>la</strong>ciones consideradas.Al igual que en el caso de SemCor 1.6,hemos actualizado los sentidos de <strong>la</strong>s 92pa<strong>la</strong>bras de <strong>la</strong> evaluación con el sentidoadecuado en WordNet 1.74.3 SENSEVAL-2Los corpus de <strong>la</strong> tarea English-Lex-Sample deSENSEVAL-2 (eng-lex-sample.training.xml yeng-lex-samp.evaluation.xml) son textos queestán escritos en XML y no ofrecen ningunainformación morfosintáctica, a excepción de <strong>la</strong>pa<strong>la</strong>bra a <strong>la</strong> que pertenece el contexto encuestión, y está etiquetado con los sentidos deWordNet 1.7. Por tanto, sólo hemos tenido quegenerar los párrafos en el mismo formato queen los dos casos anteriores.En <strong>la</strong> Figura 1, se muestra el formato común<strong>para</strong> todas <strong>la</strong>s tab<strong>la</strong>s generadas, ya sean deentrenamiento o de evaluación. Se observa que<strong>la</strong> pa<strong>la</strong>bra a <strong>la</strong> que pertenezca un contextodeterminado, “art” y “authority” en nuestroejemplo, está seguida por el carácter ‘\’ y unnúmero entero que simboliza su POS. Acontinuación figura un ‘#’ y otro número que esel sentido de esa pa<strong>la</strong>bra en WordNet 1.7.Seguidamente aparece el número de pa<strong>la</strong>brasque hay en su contexto y, <strong>para</strong> terminar, sepueden observar todos los pares pa<strong>la</strong>brafrecuenciade todas <strong>la</strong>s pa<strong>la</strong>bras del contexto.art\1#3 87 accused 1 all 1 amid 1 are 1 art 1 at 1 back 1 become1 blunted 1 book 1 bounce 1 buchwald 1 but 1 debacle 1 …sexual 1 sitting 1 slightly 1 soft 1 something 1 strict 1 surprising1 survival 1 surviving 1 suzanne 1 takes 1 than 1 that 1 these 1time 1 towns 1 unfolding 1 washington 1 weird 1 when 1 who 1with 1 working 1 wright 1 writer 1 writing 1 yet 1art\1#3 91 about 2 aggression 1 any 1 are 1 asserting 2 at 1 back1 be 1 been 1 books 1 breakfast 1 but 3 can 2 cannot 1 capable 1carry 1 … talking 1 teach 1 that 3 therefore 1 trouble 1 turn 1 use1 victim 1 want 1 way 2 what 1 whatever 1 who 1 will 2 win 1with 1 wrong 1art\1#4 95 almond 1 an 1 are 2 asked 1 away 1 be 1 b<strong>la</strong>ck 1 boy1 came 1 care 1 censored 1 colour 1 control 1 cover 1 crateload 1create 1 cult 1 demurely 1 didnt 1 done 1 dressers 1 east 1 … was1 wed 1 wh 1 whatever 1 white 1 with 3 work 2 would 1 yet 1authority\1#1 103 accidents 1 actions 1 activities 1 advice 1 all1 amount 1 animals 1 any 1 as 3 badenpowells 1 be 2 become 1boys 1 … turn 1 valuable 1 view 1 was 3 were 2 when 1 which 3with 4 woodcraft 1 workingc<strong>la</strong>ss 1Figura 1: Formato de los ficheros deentrenamiento y evaluación de SENSEVAL5 Entrenamiento de <strong>la</strong> red <strong>LVQ</strong>Los vectores iniciales que necesita el algoritmo<strong>LVQ</strong> serán inicializados a cero, dejando actuara <strong>la</strong> red neuronal de forma que en elentrenamiento de cada vector, introduzca lospesos adecuados dependiendo de si <strong>la</strong> eleccióndel ganador ha sido o no correcta.Se unen los tres corpus (SemCor, WordNety Senseval) <strong>para</strong> formar un único corpus deentrenamiento.Tenemos un total de 92 dominios deentrenamiento y un total de 13.065 vectores deentrenamiento y se deben procesar todos losdominios <strong>para</strong> calcu<strong>la</strong>r los pesos de los vectoressegún el MEV. Así pues, cada uno de losvectores de entrada será introducido en <strong>la</strong> redneuronal sucesivas veces. Conforme se vaiterando, los pesos de los vectores prototipo semodifican en menor medida en función del ratiode aprendizaje α(t), comenzando con un valor


de 0,3 y decrementándose linealmente según <strong>la</strong>siguiente ecuaciónα( ) ( )( 0)α t + 1 = α t −(3)Pdonde P es el número total de pasadas delentrenamiento <strong>para</strong> un dominio determinado.Según (Kohonen et al., 1996), el número depasadas P suele ser suficiente con 40 veces elnúmero de vectores prototipos, sin embargo,debido al elevado número de vectores en cadadominio, se corre el riesgo de no entrenar algúnsentido. En nuestro entrenamiento hemosintroducido 25 veces cada vector, puesto que apartir de este numero de iteraciones <strong>la</strong> red seestabiliza.Se trata de encontrar el sentido ganadorcalcu<strong>la</strong>ndo <strong>la</strong> menor distancia euclídea entre elvector de entrada, una vez pesado, y losvectores prototipo de <strong>la</strong> red <strong>LVQ</strong>. Una vezelegido el ganador, sus pesos serán ajustadosutilizando <strong>la</strong> fórmu<strong>la</strong> 1.Para cada dominio, se emplea un tiempo enel orden de O( 25⋅f ⋅ p ⋅log2p), donde f es elnúmero de ocurrencias de <strong>la</strong> pa<strong>la</strong>bra y p es elnúmero promedio de pa<strong>la</strong>bras en sus ventanas.Al tratarse tan solo de 92 pa<strong>la</strong>bras adesambiguar, el proceso de entrenamiento hallevado apenas unos minutos.6 EvaluaciónDel proceso de entrenamiento se obtiene unfichero con los 92 dominios con los pesosafinados, donde cada vector se corresponde conuna pa<strong>la</strong>bra y sentido específico.La evaluación es simple. Basta con calcu<strong>la</strong>r<strong>la</strong> similitud de cada vector de evaluación concada uno de los vectores de su dominioobtenidos como salida en el proceso deentrenamiento. El vector que obtenga mayorsimilitud, será el designado como sentidodesambiguado.Sin embargo, al realizarse <strong>la</strong> competiciónSENSEVAL-2, aún no estaba publicadoWordNet 1.7 y, por lo tanto, no había recursosetiquetados con dichos sentidos. Laorganización ofreció <strong>la</strong>s tab<strong>la</strong>s de actualizaciónde los sentidos, cuyas correspondencias teníancierta probabilidad de error. Así pues, debemoscomprobar si <strong>la</strong> respuesta coincide con algunode ellos en caso de que tenga más de una“traducción” en WordNet 1.7.Por otro <strong>la</strong>do, <strong>la</strong>s pa<strong>la</strong>bras del vector deentrada provocan <strong>la</strong> actualización de los pesosdel vector ganador y nada impide que dichovector ganador sea distinto en cada iteración,haciendo que <strong>la</strong> mayoría de los términos de losdominios figuren en muchos de los vectores deldominio, empequeñeciendo el valor de lospesos de estas pa<strong>la</strong>bras.Para evitar este problema usamos <strong>la</strong>frecuencia normalizada como el peso de <strong>la</strong>spa<strong>la</strong>bras de los vectores de evaluación.English-Lex-SamplePrecisión Recall Coverage0,598 0,597 99,741Tab<strong>la</strong> 2: Resultados de <strong>la</strong> evaluaciónEn <strong>la</strong> Tab<strong>la</strong> 2, se observan los resultados de<strong>la</strong> evaluación. Dado que el corpus ofrecido por<strong>la</strong> organización fue diseñado específicamente<strong>para</strong> <strong>la</strong> competición, no es extraño que <strong>la</strong>cobertura sea prácticamente completa y, porello, <strong>la</strong> precisión y recall son prácticamenteiguales.La red <strong>LVQ</strong> ha obtenido <strong>la</strong> octava mejorprecisión y el sexto mejor recall de los 38sistemas que compitieron en SENSEVAL-2.100,080,060,040,020,00,0artcarrycolourldrivePrecisiónfindholidaymaterialpullsolemnFigura 2: Precisión por pa<strong>la</strong>brauseEn <strong>la</strong> Figura 2 se muestran <strong>la</strong>s precisionesobtenidas por todas <strong>la</strong>s pa<strong>la</strong>bras de <strong>la</strong>evaluación.Un análisis del peor y mejor caso reve<strong>la</strong> que<strong>la</strong> pa<strong>la</strong>bra “draw”, verbo de 35 sentidos, es elpeor caso con un 0,216 de precisión y un 0,216de recall, mientras que <strong>la</strong> pa<strong>la</strong>bra “vital”,adjetivo de 4 sentidos es el mejor caso con unaprecisión de 0,972 y un recall de 0,946.7 ConclusionesHemos presentado un desambiguador basado enel MEV entrenado con SemCor y WordNet y


hemos simu<strong>la</strong>do su participación en <strong>la</strong>competición SENSEVAL-2, concretamente en<strong>la</strong> tarea English-Lex-Sample. Se le ha incluidoel corpus de entrenamiento que puso <strong>la</strong>organización a disposición de los competidoresen su momento y se han calcu<strong>la</strong>do los pesos de<strong>la</strong>s pa<strong>la</strong>bras con <strong>la</strong> red neuronal <strong>LVQ</strong>. Elresultado de <strong>la</strong> simu<strong>la</strong>ción ha sido un octavopuesto en precisión con el sexto mejor recall.La inclusión en los contextos de informaciónmorfosintáctica debe mejorar los resultados,puesto que se estarían se<strong>para</strong>ndo, comopa<strong>la</strong>bras diferentes, <strong>la</strong>s distintas ocurrencias deuna misma pa<strong>la</strong>bra pero con distinto POS,enriqueciendo y diferenciando aún más losdistintos vectores de un dominio.Otra aportación fundamental <strong>para</strong> trabajosfuturos consistiría en <strong>la</strong> introducción de técnicasestadísticas como <strong>la</strong> semántica <strong>la</strong>tente, quepermitirá destacar los términos importantes decada dominio con lo que es de esperar quenuestro sistema mejore.Por último, se deja <strong>para</strong> otra trabajo <strong>la</strong>aplicación a WSD de otras redes neuronalescompetitivas como <strong>la</strong> red de contrapropagaciónCPN (Counter Propagation Network) o losrecientes modelos de <strong>la</strong> teoría de resonanciaadaptativa ART (Adaptive Resonance Theory).Los resultados obtenidos animan a participaren <strong>la</strong> próxima competición, SENSEVAL-3, enesta y otras modalidades de <strong>la</strong> competición <strong>para</strong>poder hacer una confrontación en igualdad decondiciones con el resto de sistemas.BibliografíaAllen, R. 1987. Several studies on natural<strong>la</strong>nguage and backpropagation. En Proc. ofthe First Annual Int. Conf. on NN.At<strong>la</strong>s, L., R. Cole, J. Connor, M.El-Sharkawi,R.J. Maks, Y. Muthusamy, E. Barnard.1989. Performance comparisons betweenbackpropagation networks and c<strong>la</strong>ssificationtrees on three real-word applications. EnAdv. In Neural Information ProcessingSystems. Vol. 2, páginas 622-629.Bishop, C.M. 1995. Neural networks for patternrecognition. C<strong>la</strong>rendon Press, Oxford.Brown P., Del<strong>la</strong> Pietra S., Del<strong>la</strong> Pietra V. yMerce J., 1991.Word Sense DiambiguationUsing Statistical Methods, Proceedings ofACL.Bruce, R. y W. Janyce. 1994. Word sensedisambiguation using decomposable models.En Proceedings of 33rd Annual Meeting ofthe ACL.Cichocki, A., R. Unbehauen. 1993. NeuralNetworks for Optimization and SignalProcessing. John Wiley.Cottrell, G., S. Small. 1983. A connectionistscheme for modelling word sensedisambiguation. Cognition and BrainTheory. Vol. 6. páginas 89-120Daudé J., Padró L. and Rigau G. 2001. AComplete WN1.5 to WN1.6 Mapping,Proceedings of NAACL WorkshopWordNet and Other Lexical Resources:Applications, Extensions andCustomizations. Pittsburg, PA, UnitedStates,.Escudero G., L. Márquez y G. Rigau. 2000.Boosting Applied to Word SenseDisambiguation. European Conference onMachine Learning.Fellbaum, C. 1998. WordNet: An ElectronicLexical Database. The MIT PressFiesler, E., R. Beale. 1997. Handbook of NeuralComputation. Oxford University Press.Gonzalo J., Verdejo F., Chugur I, y Cigarrán J.,1998. Indexing WordNet synsets canimprove text retrieval, en Proceedings of theACL/COLING Workshop on Usage ofWordNet for Natural Language Proceesing.Ide, N y J. Veronis. 1998. Introduction to theSpecial Issue on Word SenseDisambiguation: The State of the Art.Computational Linguistics. Vol. 24: 1.Kilgarriff A. 1997. What is Word SenseDisambiguation Good for?, en Proceedingsof Natural Language Processing Pacific RimSymposium.Kilgarriff A. 1998. SENSEVAL: An Exercisein Evaluating Word Sense DisambiguationPrograms. Proc. of LRECKilgarriff, A. y M. Palmer. 2000. Introductionto the special Sigue on SENSEVAL.Computers and the Humanities, 24 (1-2), 1-13.Kohonen, T. 1995. Self-organization andassociative memory. 2ª Edición,Springer.Ver<strong>la</strong>g, Berlín.


Kohonen, T., J. Hynninen, J. Kangas, J.Laaksonen, K. Torkko<strong>la</strong>. 1996. Informetécnico, <strong>LVQ</strong>_PAK: The Learning VectorQuantization Program Package. HelsinkiUniversity of Technology, Laboratory ofComputer and Information Science, FIN-02150 Espoo, Fin<strong>la</strong>ndia.Kohonen, T., S. Kaski, K. Lagus, J. Salojärvi, J.Honke<strong>la</strong>, V. Paatero, A. Saare<strong>la</strong>. 2000. Selfoganizing of a massive document collection.IEEE Transaction on neural networks. Vol.11, nº 3, páginas 574-585.Martín, M.T., M. García, L.A. Ureña. 2002.Resolución de <strong>la</strong> ambigüedad medianteredes neuronales. Procesamiento delLenguaje Natural, Revista nº 29.Martín, M.T., M. García, L.A. Ureña. 2003.<strong>LVQ</strong> for text categorization using amultilingual linguistic resource.Neurocomputing. Pendiente de publicación.Martínez, F., M.C. Díaz, M.T. Martín, V.M.Rivas, L.A. Ureña. 2002. Aplicación deredes neuronales y redes bayesianas en <strong>la</strong>detección de multipa<strong>la</strong>bras <strong>para</strong> tareas IR.JOTRI 2002McClel<strong>la</strong>nd, J., D. Rumelhart. 1986. ParallelDistributed Processing. Volúmenes I y II.MIT Press. Cambridge, MA.Mihalcea, Rada y Moldovan. 2000. An iterativeapproach to word sense disambiguation, enProceedings of F<strong>la</strong>ir, pp. 219-233.PalomarM., M. Saiz-Noeda, R. Muñoz, A. Suarez ,P. Martínez-Barco y A. Montoyo. 2000.PHORA: NLP System for Spanish. Proc.CICLing 2001. Mexico D.F.Miller G., C. Leacock, T. Randee, R. Bunker.1993. A Semantic Concordance. En Proc. ofthe 3rd DARPA Workshop on HumanLanguage Technology.Palomar M., M. Saiz-Noeda, R. Muñoz, A.Suarez , P. Martínez-Barco y A. Montoyo.2000. PHORA: NLP System for Spanish.Proc. CICLing 2001. Mexico D.F.Robert,D., H: Moisl, H. Somers. 2000. Handbook ofNatural Language Processing. MarcelDekker, Inc.Pedersen, P. y R Bruce. 1997. Distinguishingword senses in untagged text. EnProceedings of the Second Conference onEmpirical Methods in Natural LanguageProcessing.Ruiz, M.E., P. Srinivasan. 2002. Hierarchicaltext categorization using neural networks.Information Retrieval. 5, páginas 87-118.Salton, G. y M.J. McGill. 1983. Introduction toModern Information Retrieval. McGraw-Hill, New York.Schütze H., 1998. Automatic Word SenseDiscrimination. Computational Linguistics,Vol 24, Nº 1, 1998.Towell, G., E.M.Voorhees. 1998. Disambiguating highlyambiguous words. ComputationalLinguistic. Vol. 24, nº1. pp. 125-145.Shavlik, J.W., R.J. Mooney, G.G. Towell. 1991.Symbolic and neural learning algorithm: anexperimental comparison. MachineLearning. Vol. 6, páginas 111-143.Ureña L.A., Buenaga M. y Gómez J.M. 2001.Integrating Linguistic Resources in TCthrough WSD. Computers and theHumanities. vol. 35, nº 2.Ureña López, L.A.; García Vega, M. y MartínezSantiago, F. 2001. Explotando <strong>la</strong>sRe<strong>la</strong>ciones Léxicas y Semánticas deWordNet en <strong>la</strong> Resolución de <strong>la</strong>Ambigüedad Léxica. VII SimposioInternacional de Comunicación Social.Véronis, J., N.M. Ide. 1990. Word sensedisambiguation with very <strong>la</strong>rge neuralnetworks extracted from machine readabledictionaries. En Proc. COLING-90, páginas389-394. Helsinki.Widrow, B., S. D. Stearns. 1985. Adaptivesignal processing. Signal processing series,Prentice-Hall.Wilks Y. y M. Stevenson. 1998. Word sensedisambiguation using optimisedcombinations of knowledge sources. Proc.COLING-ACL.Xiaobin, L. y S. Spakowicz. 1995.WORDNET-based algorithm for word sensedisambiguation. Proc. of the FourteenthInternational Joint conference on Artificial.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!