13.07.2015 Views

Monográfico. Red Temática - sepln

Monográfico. Red Temática - sepln

Monográfico. Red Temática - sepln

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Procesamiento del Lenguaje Natural, Revista nº 38, Abril de 2007ISSN: 1135-5948Editores:Mª Teresa Martín ValdiviaL. Alfonso Ureña LópezFernando Martínez SantiagoRevisores:De Pablo, CésarDíaz Galiano, Manuel CarlosFerrández, AntonioGarcía Cumbreras, Miguel ÁngelGarcía Vega, ManuelGonzález, José CarlosGonzalo, JulioHerrera de la Cruz, JesúsMartín Valdivia, Mª TeresaMartínez Santiago, FernandoMontejo Ráez, ArturoPeñas, AnselmoRodrigo Yuste, ÁlvaroRodríguez Hontoria, HoracioRosso, PaoloSanchís Arnal, EmilioUreña López, L. AlfonsoVicedo, José LuísColaboradores:Arturo Montejo RáezManuel García VegaManuel Carlos Díaz GalianoMiguel Ángel García CumbrerasISSN: 1135-5948Depósito Legal: B:3941-91Distribuye: Sociedad Española para el Procesamiento del Lenguaje NaturalEditado por la Universidad de Jaén


PrólogoEste ejemplar de la revista de la Sociedad Española para el Procesamiento de LenguajeNatural, en su nº 38, constituye una edición monográfica especial. El propósito de estemonográfico es dar una perspectiva de la investigación en torno al acceso multilingüe ymultimodal. Este monográfico surge a raíz de la <strong>Red</strong> Temática Nacional de Tratamientode la Información Multilingüe y Multimodal –TIMM– (http://sinai.ujaen.es/timm) conreferencia TIN2005-25825-E. La <strong>Red</strong> pretende difundir, promover y fomentar lainvestigación en estas tecnologías.La producción de información se duplica cada vez más con mayor celeridad. Comoejemplo, la información en el mundo se duplicó por primera vez en 1750, actualmente lainformación se está duplicando en unos 5 años.Esta ingente cantidad de información que se genera actualmente, se encuentradisponible electrónicamente, con carácter multimedia (especialmente en Internet). Eneste escenario en que el estamos inmersos se pone de manifiesto más que nunca elescenario multimodal de la Web. Así se han popularizado sitios Web colaborativos paradifusión de vídeos, fotos, música y texto. Todo ello también con el creciente caráctermultilingüe que caracteriza a la Web. Dicha información tiene un carácter multimodaly/o multilingüe, ya que no sólo se genera texto (como documentos o páginas webs) sinoque además, existen otra gran cantidad de formatos como las imágenes, los videos o lascomunicaciones orales. Ante esta situación surge la necesidad creciente de técnicas yherramientas para el acceso y búsqueda de de información con estas connotaciones. Unhecho que denota la importancia del tratamiento de este tipo de información es elsurgimiento de distintos foros (CLEF, TRECvid...) donde intentan mejorar los sistemasque recuperan información, utilizando técnicas tanto de análisis de contenido (CBIR -Content Based Information Retrieval) como multilingües.Esperamos que sea de interés y que constituya una fuente referente de información parala comunidad.Quisiéramos agradecer a la Sociedad Española para el Procesamiento de LenguajeNatural su ofrecimiento, disponibilidad y facilidad para publicar este monográfico en surevista intermedia. También queremos agradecer a los autores su participación.Finalmente, deseamos expresar nuestra gratitud a los revisores de este monográfico, asícomo a todos los que han colaborado en este proyecto.Los editores


Procesamiento del Lenguaje Natural, Revista nº 38, Abril de 2007ISSN: 1135-5948Artículos:MCR for CLIREneko Aguirre, Iñaki Alegria, German Rigau, Piek Vossen………………………………………… 3Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador webmultilingüe basado en diálogoFernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbreras………..17Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILISergio Ferrández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno……………………..27Fusión de Respuestas en la Búsqueda de Respuestas MultilingüeRita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pineda………………………. 35QALL-ME: Question Answering Learning Technologies in a multiLingual and multimodalEnvinromentRubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Viñedo, PatricioMartínez, Armando Suarez………………………………………………………………………………33Web-based Selection of Optimal Translations of Short QueriesPaolo Rosso, Davide Buscaldi, Matteo Iskra………………………………………………………… 49Técnicas léxico-sintácticas para el reconocimiento de Implicación TextualÓscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar……………………………….. 53Alineamiento de Entidades con Nombre usando distancia léxicaRafael Borrego Ropero, Víctor Jesús Díaz Madrigal………………………………………………. 61Anotación semiautomática con papeles temáticos de los corpus CESS-ECEM. Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran…………… 67Multilingualidad en una aplicación basada en el conocimientoGuadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla………… 77Ontologías mixtas para la representación conceptual de objetos de aprendizajeHaliuska Hernández Ramírez, Maximiliano Saiz Noeda…………………………………………… 99Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédicoFrancisco Carrera García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, JacintoMata, Manuel Maña López……………………………………………………………………………. 107Mejora de los sistemas multimodales mediante el uso de ganancia de informaciónManuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Raez, L. AlfonsoUreña López…………………………………………………………………………………………….. 119La notación del habla en corpus de vídeoManuel Alcántara Pla…………………………………………………………………………………..131Tesis:Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación VectorialManuel García Vega…………………………………………………………………………………… 143Integración de técnicas de clasificación de texto y modelado de usuario para la personalizaciónen servicios de noticiasAlberto Díaz Esteban…………………………………………………………………………………... 145


Artículos


MCR for CLIREneko Agirre, Iñaki Alegria, German RigauIXA groupManuel de Lardizábal, 120018, Donostia. Basque Country{e.agirre,i.alegria,rigau}@si.ehu.esPiek VossenIrion TechnologiesDelftechpark 262628XH Delft, Netherlands,Piek.Vossen@irion.nlAbstract: The Multilingual Central Repository (MCR) is based on the design of theEuroWordNet database. The MCR holds WordNets in various languages (English,Spanish, Italian, Catalan and Basque), which are interconnected via an Inter-Lingual-Index (ILI). In addition, the MCR holds a number of ontologies and domain labels relatedto all concepts. This paper describes the integration and evaluation of the MCR in across-lingual information retrieval system, developed by Irion Technologies, as well as apublic exercise for evaluating combined MCR, WSD and CLIR strategies.Keywords: CLIR, Word Sense Disambiguation, WordNets1 IntroductionThe usefulness of WordNets for InformationRetrieval and for Document Classification is notcommonly accepted. Important evidence for thisbelief is a study of Voorhees (1994) that showeda decrease in scores for a WordNet-basedapproach in TREC-5. She claimed that linguistictechniques are only useful if they perform closeto perfect. She also states that statistictechniques approximate NLP techniques byexploiting statistical correlations. A similarstatement is made by Sanderson (1994) whosuggests that WordNet-based approaches areonly useful for retrieval if 90% or higheraccuracy is achieved to detect the appropriatesense. This study was done by introducingartificial ambiguity in documents by substitutingrandomly chosen word pairs, e.g. banana andkalashnikov, with artificially ambiguous terms,e.g. banana/kalashnikov.We however still believe that there is anenormous potential for WordNet-basedapproaches (also see Gonzalo et al 1998). In thispaper we give evidence that WordNets can beexploited for generic information retrieval. Thereason why this has not been evident is that theincorporation of WordNets is not trivial.WordNets need to be used and integrated in aproper way to benefit from their richness. Wehave tried to achieve this by pursuing thefollowing goals:• to enrich WordNets with moreknowledge that is automatically acquiredfrom corpora and the WWW;• to improve Word Sense Disambiguation(WSD) using novel techniques in combinationwith the acquired knowledge;• to develop a rich conceptualrepresentation of text that is based oncombinations of synsets associated withlinguistic phrases;The acquired lexical knowledge from varioussources and various languages is stored in theMultilingual Central Repository (MCR)(Atserias et al 04), which is based on the designof the EuroWordNet database (Vossen, 1998).The MCR holds wordnets in various languages(English, Spanish, Italian, Catalan and Basque),which are interconnected via an Inter-Lingual-Index (ILI). In addition, the MCR holds anumber of ontologies and domain labels relatedto all concepts.This paper describes the integration andevaluation of the MCR data in a cross-lingualinformation retrieval system, developed by IrionTechnologies. In these applications, text isrepresented in the form of combinations ofconcepts that co-occur in linguistic phrases andwhere concepts are based on the synsets in theWordNet taken from the MCR. In a sense, thecomplete phrase represents a complex conceptas whole, built up of interrelated sub-conceptsconsisting of synsets. Similarly, a query isconsidered as a phrase, representing one or moreISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossenconcepts. A query consisting of multipleconcepts is then compared to phrases withmultiple concepts. We carried out a series oftask-based evaluations on English and Spanishnews collections. The evaluation shows thatboth recall and precision are significantly higherwhen using the enriched semantic networks incombination with WSD.The paper is structured as follows. In the nextsection, we briefly explain the conceptualindexing technology developed at IrionTechnologies. Section 2 describes how theinformation in MCR have been integrated in theIrion system. The following sections describethe evaluation. Section describes a cross-lingualretrieval evaluation on the same Reuters dataand Section 3 another CLIR experiment on adatabase of news pictures with Spanish andEnglish captions from the Spanish publisherEFE. Whereas the Reuters retrieval system useda classical vector-space document ranking, theEFE version uses a novel way of ranking basedon the conceptual phrase representation. TheEFE database is also used in an end-userevaluation task. This is described in Section 5.In Section 6 we show the use of MCR in publicCLIR evaluations.2 Conceptual indexingIrion Technologies (Delft, The Netherlands)developed a conceptual indexing technology,called TwentyOne, that combines statistical andlanguage-technology approaches. TwentyOne isa two step system, where first, the relevantdocuments are collected using state-of-the-artstatistical engines, and secondly, the bestmatching phrases from the relevant documentsare collected. The statistical core-engine ofTwentyOne produces a relevance ranking oftext, using a standard vector-space weighting. Itensures fast and robust retrieval. The languagetechnologythen has two major roles:1. Maximize the recall of the statisticalengine so that any document is foundregardless of the wording and regardless ofthe query word choice;2. Maximize the precision by conceptuallymatching queries with phrases in thedocuments rather than complete documents;The conceptual index represents concepts at aphrase level, which are very loosely defined asNPs. Within a phrase, a range of concepts isgiven where each concept correlates with aword, a combination of words or a part of aword, for example:• The phrase human rights will representa single concept that is lexicalized as a whole.Likewise it is translated to Dutch and Germanas a single word, as mensenrechten andMenschenrechten respectively. Note that thisconcept can still have relations to otherconcepts such as the hypernym right (in avery specific meaning) and human.• The phrase animal party will represent2 concepts, the separate concepts animal andparty that co-occur, and so does party animalalbeit a different combination.• The single word profile-based will alsorepresent two concepts profile and based as aco-occurring combination.A conceptual representation of a phrase thusconsists of a co-occurring sequence of synsetsthat express a particular relation to each other.For building up a conceptual representation of aphrase, the TwentyOne system heavily relies ona multilingual semantic network, similar toEuroWordNet and MCR. It uses multiwordlookup, compound decomposition and WSD tomap words within a phrase to concepts. Queries(user-queries or textual documents) are analysedin the same way. The TwentyOne system thenuses a range of factors to compare phrases indocuments with query phrases:1. number of matching concepts betweenthe query and each phrase,2. degree of fuzziness mismatch betweenthe query word and the phrase,3. degree of derivational mismatch, compounding,etc.,4. whether or not a synonym is used,5. whether or not the same language isused.The effect is first that documents withphrases (NPs) that include most concepts areshown first and, second, that documents with thesame number of concepts but with the mostsimilar wording with the query are shown first.The contextual effect of the phrase match is verypowerful, as we will see later.Because words are mapped to concepts froma language-specific wordnet that is linkedthrough the ILI to all the other wordnets, it ispossible to calculate a conceptual score for4


MCR for CLIRqueries in other languages than the indexlanguage. Hence, any index can be queried inany of the languages that connected to the ILI.2.1 MCRThe Multilingual Central Repository (MCR)knowledge base that we developed in theEuropean 5 th FP project MEANING (IST-2001-34460) (Atserias et al. 2004) 1 , includeswordnets for English, Spanish, Basque andCatalan. The wordnets are currently linked viaan Inter-Lingual-Index (ILI) allowing theconnection from words in one language totranslation equivalent words in any of the otherlanguages. In that way, the MCR is going toconstitute the natural multilingual large-scalelinguistic resource for a number of semanticprocesses that need large amount of linguisticknowledge to be effective tools.Currently, the MCR consistently integratesmore than 1.6 million of semantics relationsbetween concepts. This means one order overthe Princeton’s WordNet (138 thousands inWordNet 1.6). Moreover, the MCR has beenenriched with about 460.000 semantic andontological properties.2.2 Integrating MCR and the IrionsystemThe information in the MCR has been integratedin the Irion system in two ways:1. we replaced the proprietary multilingualsemantic network of Irion by the MCRdatabase,2. we developed a WSD system based onWordNet domains (Magnini et al 2002) whichare integrated into the MCR.The data from the MCR could be easilyimported in the TwentyOne system because boththe proprietary database of Irion and the MCRare based on the model of EuroWordNet. Withinthe Irion database, we simply replaced theconcepts by the WordNet1.6 concepts andimported the mapping of the vocabulary for eachlanguage to these concepts from the MCR.Whereas the proprietary database has wordnetsfor English, Dutch, German, Spanish, Italian andFrench, the MCR has wordnets for English,Spanish, Italian, Basque and Catalan.Although other possibilities could be explored(the use of other ontologies such as SUMO orthe EuroWordNet Top Concept and a largeamount of explicit semantic relations alsointegrated into the MCR), WSD was done usingonly WordNet domains (version 1.1.1, Magniniet al 2002) from the MCR. The WSD system hasbeen implemented as a a text classifier that istrained with the Spanish and English wordsassociated with domain labels, e.g. all synonymsrelated to the domain “legal”, and assigns adomain tag to the text. The WSD system firstassigns domain labels to the article as a whole,based on the complete content: so-calledmicroworld tags. Next, it also classifies theseparate NPs within each article using a windowof 10 NPs (4 to the left and 5 to right). Thisresults in one or more so-called nanoworld tagsfor each NP. All domains scoring above 60%confidence are assigned to have sufficient recall.The disambiguation then consists of thefollowing process for each word in the NP:• Are there word meanings with domainlabels that match any of the nanoworld tags?If yes, these meanings are selected.• If no, are there word meanings withdomain labels that match the microworldtags? If yes these meanings are selected.• If no all meanings are selected.The concept reduction as a result of thedisambiguation is very effective. For the dataobtained from EFE (see Section 6 below), themicroworld-based reduction is about 48% forSpanish and 57% for English. In the case of thenanoworlds, the reduction is even higher: 52%for Spanish and 65% for English. Most of thesereductions (about 44%) however relate to thefactotum words (Magnini et al 2002). Factotumwords are words such “be”, “begin”, “person”that are not specific to a domain and often havea very strongly preferred generic meaning. Thisgeneric meaning is labelled in WordNetdomains and can be used to restrict themeanings when there is no other specific domainthat applies to these words.For each of theexperiments described below, we built 3 typesof indexes:• NP Indexes with NPs but without usingwordnets: i.e. traditional string-basedindexes.1 http://www.lsi.upc.es/~nlp/meaning5


Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen• FULL Indexes using wordnets, butwithout WSD: i.e. full expansion to allpossible synonyms and/or translations.• WSD Indexes using wordnets and usingword sense disambiguation: i.e. expansionlimited to synonyms and/or translationswithin the context of the relevant domains, ifany.An example of an extracted NP is thefollowing:toxic to nerve cells In the case of the NP index, the words areindexed as they occur (after normalization). Inthe case of the, the FULL index, the words“”toxic”, “nerve” and “cell” are expanded to allthe synonyms for all their possible meanings.These synonyms will thus also get a pointer tothis document and this NP. In the case of theWSD index, we only added synonyms for wordmeanings that fit the domains assigned to thedocument and the NP.We thus expect that the first type of index(NP) gives high-precision but lower recallbecause we do not generate a mapping throughsynonyms. You cannot find any documents withwordings different from the query2. The secondtype of index (FULL) will have a very highrecall, because any possible mapping andwording is generated. The precision may dropbecause we also generate a lot of noise throughirrelevant expansions. The third index (WSD)index will have recall and precision rates inbetween the others.3 Cross-lingual retrieval on the ReutersdataThe first experiments on the Reuters collectionwere conducted on the English news using theIrion system with their proprietary knowledgebase (SemNet). The experiment was restricted tothe 23,307 files from a single month August1996. The Reuters collection comes withclassification codes that are embedded in theXML structure.The TwentyOne retrieval system has abenchmark environment that can extract NPsfrom the indexed documents and create queries,where we measure if the same document fromwhich the NP is extracted is returned within the2 This is especially the case for smaller two-wordqueries, which is more normal for search engines.top-ranked documents. Note that thismeasurement does not tell you anything aboutthe quality of the other results. It can thus onlybe seen as a crude way to measure the recall ofthe system.We thus automatically extracted NP-basedqueries from the indexes. Next, we manuallyselected 96 queries with a head and a modifier,where the head noun exhibits a clear case ofhomonymy or synonymy. For example, the nouncell that has clearly different meanings whencombined with police cell, cell phone, batterycell, etc. From the complete NPs, two wordqueries were extracted 3 . Next the originalqueries were modified by replacing the modifierby another context word that is semanticallyrelated, sometimes with a similardisambiguating effect and sometimes moreneutral. An example of this sort of modifiedquery would be detention cell instead of policecell. This resulted in about 96 paraphrasedqueries in English. Next the original querieswere translated into the other languagesrecognized by the system: Dutch, German,French, Spanish and Italian.We then run separate tests on the 3 types ofindexes: NP, FULL and WSD, with the originalwords as query, the paraphrased English wordsor the translations of the originals. The resultsare shown in Table 1, where the rows representthe different indexes and the columns the resultsfor each set of queries: original words from theNPs, paraphrased English words andtranslations.We then run separate tests on the 3 types ofindexes: NP, FULL and WSD, with the originalwords as query, the paraphrased English wordsor the translations of the originals. The resultsare shown in Table 1, where the rows representthe different indexes and the columns the resultsfor each set of queries: original words from theNPs, paraphrased English words andtranslations. In table 1, each query result columnhas 3 sub-columns:Q = number of queriesR = recall, the number of times that thedocument from which the query wasextracted occurs in the top 10 results% = proportional recallWhen we look at the original words used as aquery, we see the best result on the NP index.3 In these experiments, we concentrate on multiwordqueries only. Trying to obtain the original documents fromone-word queries proven to be a very difficult task.6


MCR for CLIRThe FULL index can only generate more noiseby the expansion compared to the originalwords. This has pushed good results out of thetop 10. We see that the WSD index has apositive effect because the recall recovers with7%. When we look at the paraphrased Englishqueries, we see that the recall dramatically dropsfor the NP index. This shows that the type ofquery is important to demonstrate the need for awordnet-type of expansion. We see here that theWSD index gives best results.Table 1: Cross-lingual retrieval results on the Reuters collectionEnglishoriginal“policecell”Englishparaphrase“detentioncell”Dutch“politiecelGerman“Polizeizelle”French“cellule depolice”Italian“celladellapoliziaSpanish“celda de lapolicía”Q R % Q R % Q R % Q R % Q R % Q R % Q R %NP 96 76 79 96 24 25 96 8 8 96 8 8 95 10 11 94 4 4 96 4 4FULL 96 61 64 96 28 29 96 35 36 96 38 40 95 42 44 94 20 21 96 18 19WSD 96 68 71 96 30 31 96 34 35 96 30 31 95 36 38 94 17 18 96 15 16The cross-lingual results can be comparedwith the paraphrased results. Obviously, theNP indexes perform poorest because the wordsare not translated at all (i.e. there is noexpansion). The FULL index now has betterresults than WSD. Apparently, the noisegenerated cross-linguistically by giving allpossible translations has a less negative effectcompared to missing certain translations due toWSD.In the above experiment, we used theproprietary wordnet database from Irion andwe did not yet implement the conceptualscoring function that re-ranks the relevantdocuments on the basis of the overlap ofconcepts between the NPs and the queries,combined with the closeness of expression.The ranking was here based on the traditionalstatistical relevance ranking. In the nextsection, we describe a further experiment withthe conceptual re-ranking.4 Cross-lingual retrieval on the EFEdata4.1 The goal of the experimentFor this experiment, we indexed part of amultilingual database of pictures, calledFototeca, that was provided by the Spanishnews agency EFE. We received a collection of29,511 XML records with captions andcorresponding pictures (from EPA and AP).These captions have 50 words of text onaverage. The captions are manually enrichedfor monolingual and multilingual access. Thiscollection can be used to find pictures usingtext queries on the captions. Most of thecaptions were Spanish (26,546), about 10%were in English (2,965).Again, we built the 3 types of indexes NP,FULL and WSD. In this case, however, weused the MCR data, which enables us to usethe latest results as well as use other languages(Basque and Catalan) for querying. In the caseof the NP index, we built indexes for 5languages: English, Spanish, Catalan, Basqueand Italian. Instead of translating the originalEnglish and Spanish words they were simplycopied to the other indexes for English,Spanish, Catalan, Basque and Italian. Forexample, the Basque index did not containBasque translations but the literal Spanish andEnglish originals. No synonym expansion wasapplied for English and Spanish and notranslation for the other languages.7


MCR for CLIRto the conceptual phrase search. The searchengine will select NPs that include all thequery concepts and give preference to NPs thatclosely match the query. When we do not usewordnets, as in NP, the most equal phrases arelikely to show up first, especially since thequeries have been derived from the NPs andthere are not that many NPs with all the querywords.We also see that we hardly lose anythingwhen we use wordnets. The fully expandedindex (FULL) scores 91% and thedisambiguated index (WSD) scores 92%. Thisis a major difference with respect to the resultsreported for the Reuters experiments. InReuters, the retrieval was based on the pagescore and not on the conceptual phrase score.The conceptual phrase matching thus addsprecision. So even if the wordnets add morepossible hits and more noise, the fact that theclosest wordings are preferred selects the mostappropriate results. This is also clear when welook at the p1 positions. Here NP and WSDscore equally well.When we look at the queries where asynonymous word was used (the 2 nd columngroup, Spanish paraphrase), we see that theindex without wordnets (NP) drops to 15% butthe FULL index only drops to 76% and theWSD index drops to 65%. This clearly showsthe usefulness of wordnets for informationretrieval. We also see that WSD apparentlyremoved certain synonyms that are useful,hence the difference of 10% between FULLand WSD. This indicates that the WSD settingsmight have been too strict (50% of theconcepts have been excluded).On the other hand, if we look at the p1scores, we see that WSD scores better thanFULL. This means FULL generates morenoise that is interfering with the correct resultsfor the 1 st position but the correct resultsapparently still end up in the top 10. This alsoimplies that the total results for FULL can beworse than WSD if the index is bigger. In abigger index there is more competition and thenoisy results will push correct results out of thetop 10. The pattern that we see for thesynonyms also shows up for the cross-lingualretrieval. FULL mostly has best results andWSD is very close but scores better for p1. NPhas dramatically bad results.44 Catalan scores almost as well as the Spanishsynonyms. This shows that the languages are closelyThe 1 st position results can be seen as ameasurement of precision. The disambiguatedindex thus has a better precision than the fullyexpanded index. These results are confirmed inthe end-user evaluation that is described in thenext section.5 End-user evaluation5.1 The goal of the experimentThe end-user evaluation was performed in areal scenario provided by Spanish news agencyEFE, using the Fototeca database, the databaseused by EFE to provide pictures thatcorrespond to news articles. We designed acomplete end-user evaluation framework forthis database following (Walker, et al. 1997).The design was validated in a pilot test with asingle user. In this pilot test, the user wasasked to perform a set of tasks with differentsystems in a limited time. Finally, the user wasasked to fill a questionnaire. With this pilottest, we planned to check the appropriatenessand correctness of the whole evaluationframework including the task design, thequestionnaire, the three Irion systems, the logfiles, the number of end-users that would beneeded, etc. As a result of the pilot test, weslightly revised the set-up.For the end-user evaluation, we used thesame three indexes of the EFE Fototecacollection that are described in Section 6:• EFE_NP: no use of wordnets.• EFE_FULL: wordnets with fullexpansion, no disambiguation• EFE_WSD: wordnets with expansionafter disambiguation.5.2 The end-user tasksThe end-user final evaluation was performedby three different users: a, b, c. Each end-usertested the three different systems: EFE_WSD,EFE_FULL, EFE_NP, which we haverenamed here A, B and C respectively. Eachend-user had to perform twenty-one differenttasks organized in three test sets (1, 2, 3)having seven tasks each. Thus, each end-userperformed a total number of twenty-onedifferent tasks using three different systems.There is no repetition of a given combinationrelated. The fact that both the WordNets are developed bythe same group may also be a factor.9


Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossenof user, system or test set. The final evaluationschema was as following:End-usersTest sets a b c1 A B C2 B C A3 C A BThis schema tries to neutralize undesiredside effects related to the relative performanceof the users (some users are better than otherswhen locating pictures) and the inherentdifficulty of the tasks (some tasks are moredifficult than other). Furthermore, from the logfiles we only took into consideration the totalnumber of actions performed by the threesystems.The total time allowed for performing eachtest set was twenty minutes. After finishingeach test set, the end-user took an additionalten minutes to fill out a questionnaire.Each test set was designed to be selfexplanatory.The end-user was to search for aset of picture to accompany a set of articlesthey were writing using a system located at aparticular web page which provided access tothe EFE Fototeca database. For each task, theend-user was told that they were preparing anews article on a given TOPIC with a givenCONTEXT and was then asked to locate apicture showing some GOAL to serve as avisual. This is exemplified by News Article 10:News Article 10TOPIC = TERRORISMOCONTEXT = Sigue la violencia en Colombia yespecialmente en Medellín.GOAL = Un entierro en Medellín.In the task of News Article 10, the end-useris required to locate a picture showing afuneral in Medellín (GOAL), given thecontinuing violence in Colombia andespecially in Medellín (CONTEXT) related toTERRORISM (TOPIC).We designed the 21 tasks trying to bedifficult for a regular textual InformationRetrieval System (like EFE_NP). Obviously,this decision will bias the results, but will alsoprovide clear insights of the potential ofconcept-based CLIR engines on difficultqueries. For example, there are no captions inthe database matching both entierro (funeral)and Medellín. In fact, there are only twopictures with sepelio and Medellín, sepelio alsoused to express the concept funeral.Furthermore, entierro is more common (35occurrences in the database) than sepelio (14occurrences). That is to say, the most commonwords, as opposed to the less common words,were used in presenting the GOAL andCONTEXT of each task. Furthermore, someof the tasks (three in total, to maintain aproportional volume with respect the corpussizes) were designed to locate English captionsinstead of Spanish captions. Proper nounphrase were mostly excluded.News Article 10QUERY = entierro medellínTEXT = sepelio medellínRESULT = FH_1205173 20040524 and FH_120517220040524CAPTION=TerrorismoTRI:JUSTICIA-INTERIOR-SUCESOS,TERRORISMOCATEGORÍAS SUPLEMENTARIAS : JUSTICIA-INTERIOR-SUCESOS PALABRAS CLAVE : JUSTICEEXPLOSION DE UNA MALETA BOMBA EN UNADISCOTECA DE LA ZONA BANANERA DE URABÁ ENLA QUE FALLECIERON AL MENOS CINCO PERSONASY 93 RESULTARON HERIDAS , PRESUNTAMENTECOLOCADA POR LAS FARC , COLOMBIA 2004FUNERAL VICTIMAS SMCOLOMBIA SEPELIO VÍCTIMA BOMBA APARTADÓ :BOG302 MEDELLIN( COLOMBIA) 24/ 05/ 04 .- Enel cementerio de San Pedro de Medellín serealizó el sepelio de la niña de 4 años deedad , María Fernanda Ramírez , una de las7 víctimas de la bomba detonada en uncentro nocturno de Apartadó . EFE/EDWINBUSTAMANTEPICTURE=RESULT = FH_1205173 20040524RESULT = FH_1205172 2004052410


MCR for CLIRIt is still possible to obtain the above resultsin English or Spanish because of the conceptbasedInformation Retrieval system (likeEFE_FULL and EFE_WSD) because in theMultilingual Central Repository we alreadyhave the concept: which has an equivalenttranslation through the ILI to the Englishconcept .After being instructed, the end-user queriesthe Fototeca database for an appropriatephotograph using the system we were testing.When the system returns an ordered list ofsnippets (showing only a part of the text) theuser reviews the results in order to select themost appropriate caption. Once a caption isselected, the system shows the correspondingpicture. If the image is appropriate, the enduserclicks on a button labelled “This is theright picture”. If, on the other hand, the pictureis not appropriate, the end-user clicks on abutton labelled “This is the wrong picture”.When the user is not sure, he clicks on abutton labelled “Not sure about this picture”.We also informed the end-user that if he didnot find an appropriate photo the first time, hecould try modifying the query, adding,removing or changing words from the originalquery. He could also select more than onepicture for each news article. However, thetotal time for locating the appropriate picturesfor each test set (seven tasks) was only twentyminutes.5.3 The end-usersThree end-users were requested to perform thefinal end-user evaluation. We monitored all theactivities of all the users by means of log files.All the tests were performed at the centraloffice building of EFE in Madrid. They carriedout all the activities in their usual workplace(office, computer, monitor, table, etc.).Table 3: Summary result figures for the final end-user evaluationThree end-users NP FULL WSDSEARCH 110 64 56HIGHLIGHT 105 55 60DISAP. 57 28 27CONFIRMED 20 19 24UNDEC. 3 6 1TOTAL 295 172 1685.4 The resultsTable 3 summarizes the data we obtainedfrom the log files. We count the total numberof interactions performed with each systemby the three end-users (TOTAL), the totalnumber of searches (SEARCH), the totalnumber of captions highlighted to see thecorresponding picture when reading thecaption text (HIGHLIGHT), the total numberof pictures discarded after selected (DISAP.),the total number of confirmed pictures afterselected (CONFIRMED) and the totalnumber of pictures where the end-user wasundecided (UNDEC.). It should be noted thatthe end-users had the same total time toperform the 21 tasks.With respect to the total number ofsearches (SEARCH), we can see that in orderto carry out the 21 tasks, the end-users madealmost twice as many queries while using atext-based IR system (NP with 110) incomparison to a concept-based IR systems(FULL with 64 and WSD with 56).In otherwords, the users effort during search wasreduced by almost half when they used aconcept-based IR system. In addition, thetotal number of searches was significantlybetter (12.5%) for the system using wordsense disambiguation (WSD with 56) asopposed to the one without (FULL with 64).Regarding the total number of highlightedcaptions (HIGHLIGHT), we can also see thatthe end-users selected almost twice as manycaptions when using a text-based IR system11


Eneko Agirre, Iñaki Alegria, German Rigau, Piek Vossen(NP with 105) than when using a conceptbasedIR system (FULL with 55 and WSDwith 60). This is because the user obtainedessentially half of the false positives with aconcept-based system. While it appears thatin this case the FULL system outperformedthe WSD system, we will see later that this isa misleading conclusion.With respect to the total number ofpictures rejected (DISAP.), we can see thatthe end-users discarded twice as manypictures when using a text-based IR system(NP with 57) than using a concept-based IRsystem (FULL with 28 and WSD with 27).That is to say, the users looked at half asmany irrelevant pictures in order to locate the21 desired pictures using a concept-based IRsystem. The total number rejected using thesystem performing disambiguation (WSDwith 27) was essentially the same as that forthe system without disambiguation (FULLwith 28).In terms of the total number of picturesconfirmed (CONFIRMED), the three systemshad similar behaviours (NP with 20, FULLwith 19 and WSD with 24). This means thateven with a poor text-based system (NP), theend-users having enough time were able tolocate almost a complete list of picturesappropriate to the tasks (20 out of 21).However, with much less time (as it isderived from the log files) and half of thesearch effort (SEARCH) and total number ofinteractions (TOTAL) the end-users wereable to locate an even more extensive list ofappropriate pictures using the concept-basedsystem with disambiguation.Furthermore, the total number of picturesabout whose relevance the user was unclear(UNDEC) was reduced with the WSD system(only one) in comparison with the other twosystems (FULL with 6 and NP with 3). Thisis due in part to an interesting hiddenbehaviour, namely, that the WSD system alsoprovided a better ranking of the captions. Inother words, relevant captions were rankedhigher giving the user greater confidence inthe initial choice of captions and pictures(more confirmed, less undecided).In summary, it seems that for difficulttasks (with synonyms or cross-lingualretrieval), using a concept-based IR systemwith WSD results in half of the searchingeffort, more confirmations, half the falsepositives, half the rate of rejection, fewerundecided pictures and half the total numberof interactions. Although the results arepreliminary, there is strong evidence with theend-user evaluation together with theprevious Reuters and EFE CLIR experimentsfor suggesting that we performed better IRand CLIR with the help of the MultilingualCentral Repository and appropriate WSDtechnology.Regarding the questionnaire, it is notsurprising that the end-users, who testeddifferent questions (of variable difficulty)using different systems (with differentperformances), provided conflictingresponses in regard to their perception of thesystems’ behaviors. We will not present thedetails of their responses here except tomention that they preferred system A(EFE_WSD) for future use.6 Using the MCR in public CLIRevaluationsThe success of the previous experiments wasa motivation to design further experiments onthe interdependence of WSD, large-scaleresources such as the MCR, and CLIR. Infact, we thought that no single research teamcould encompass the large amount of possibleconfigurations for such a CLIR system, so wedecided that a public evaluation exercisemight be interesting. We envisioned aevaluation exercise in two phases:1. We evaluate WSD strategies using acommon sense inventory and expansionlexicon (the MCR), as well as a specificIR architecture (the IRION twentyonesystem)2. We evaluate different expansion and IRstrategies given preexistent WSD resultsThe motivation for this separation isthreefold. First, to be able to allow for bothWSD and CLIR communities to collaborate,so they don't need to develop a WSD/CLIRsystem of their own in order to participate.Second, to share the resources and allow fordifferent teams using the results of otherteams.Lastly, the WSD and community haslong mentioned the necessity of evaluatingWSD in an application, in order to checkwhich WSD strategy is best, and moreimportant, to try to show that WSD can makea difference in applications. Unfortunately, it12


MCR for CLIRis often not possible to decouple the strategybehind a specific WSD system and thetechniques used in the target application,CLIR in this case (Resnik, 2006). Forinstance, we might want to return the bestsense only, or we might prefer to discard theweakest senses in each case. This might berelated to the expansion strategy (expand thedisambiguated senses by all its synonyms, oronly to the most frequent synonyms, or onlythose appropriate in the given context) andalso to the use or not of independentlymotivated IR techniques like relevancefeedback. Separating the exercise in two stepsallows to better study theseinterdependencies.The first part of the evaluation has beenaccepted as a Semeval-2007 task, with theevaluation exercise happening in February-March (2007) and a dedicated workshop inthe ACL conference.Participants disambiguate text byassigning MCR senses and the system will dothe expansion to other languages, index theexpanded documents and run the retrieval forall the languages in batch. The retrievalresults will be taken as a measure for fitnessof the disambiguation. The modules and rulesfor the expansion and the retrieval will beexactly the same for all participants.There will be two specific subtasks:1. participants disambiguate the corpus, thecorpus is expanded to synonyms andtranslations, and we measure the effectson cross-lingual retrieval. Queries are notprocessed.2. participants disambiguate the queries perlanguage, we expand the queries tosynonyms and translations and wemeasure the effects on cross-lingualretrieval. Documents are not processed.The corpora and queries will be obtainedfrom the ad-hoc CLEF 5 tasks. The scores canbe compared among the Semeval participantsbut also with the past CLEF participants.More specifically we will use the EnglishCLEF document collection covering 169.477documents (579 MB), and Spanish andEnglish topics. The relevance judgments willbe taken from CLEF. This has thedisadvantage of having been produced bypooling the results of CLEF participants, and5 http://www.clef-campaign.orgmight bias the results towards systems notusing WSD, specially for monolingualEnglish retrieval. A post-hoc analysis of theparticipants results will analyze the effects ofthis.The second part of the evaluation will bedefined as a CLEF track in 2008, where CLIRsystems will have the opportunity of using theannotated data produced as a result of theSemeval-2007 task.7 ConclusionsThis paper has summarized the results of anumber of evaluations of the MCR andWordNets. It describes some larger tests withqueries in various languages using theTwentyOne Search and Classification engineof Irion Technologies and an end-userevaluation in a real-world scenario on twomonths of captions and pictures from the EFEFototeca database.The integration required the use of theSpanish, English, Catalan, Basque and Italianwordnets from the MCR. It also involved theuse of WordNet domains exported from theMCR and integrated in the WSD systemdeveloped by Irion Technologies. Thedisambiguation resulted in the reduction of50% of the concepts.With respect to classification, we haveseen that disambiguated expansion can leadto an increase of 12% in recall, 17% incoverage and still 2% increase of precisionwith respect to the baseline (TEXT). The F-measure increased by 7.2%. With respect toretrieval, we saw significant improvement inrecall for paraphrased queries (5%) andtranslated queries (15%-30%) on the Reutersdata when using the MCR (with and withoutWSD). However, we lost 8% (using WSD)and 15% (using full expansion) on queriesliterally extracted from the text.For the EFE database, we modified theranking so that the queries are matched withconcept combination in phrases (NPs). Wehave seen that the phrase structure helps toexclude the noise generated by the expansionwith wordnets. Literal queries only dropped2% and 3% when using wordnets and WSD,whereas paraphrased queries gained 50% to60% and translated queries 35% and higher.In addition, when we took the correctness ofthe first result as a measure of precision, the13


Eneko Agirre, Iñaki Alegria, German Rigau, Piek VossenWSD approach performed best for all typesof queries.Finally, we also described the end-userevaluation framework and the resultsobtained, which have been carried out by athree different users testing three differentsystems. This experiment confirmed theresults from the query-based experiments.The productivity of the end-users doubledand there was a clear effect in precision forthe WSD-based system.A concept-based IR system with WSDappears to beneficiary in difficult tasks (withsynonyms or cross-lingual retrieval). Usinghalf the search effort, it results in moreconfirmed photographs, half the falsepositives, half the number of rejectedpictures, fewer uncertain selections and halfthe total number of interactions. The bottomline is that IR and CLIR can be improvedwith the help of the Multilingual CentralRepository and appropriate WSD technology.This end-user evaluation showed that bothWSD and FULL increase productivity whensearching for pictures in the Fototecadatabase. However, WSD significantlyoutperforms the FULL because the first resultis more often the correct result and, as aresult, users can quickly and correctly finishtheir task without going through the full set ofresponses.It is also clear from these findings that aphrasal representation of the concepts inwordnets is important in order to achievegood results. For the future, we thereforewant to further explore the possibilities forextracting a more detailed representation ofthe conceptual relations expressed in phrases.The current system, for instance, does notdistinguish between animal party and partyanimal or between Internet service on Javaand Java Internet Services because it cannotdetect the conceptual relation between theconcepts. This would also require higherprecision WSD and more inferencing andreasoning which will allow a question such asWho are the parents of Ghandi? to beanswered by a phrase akin to Ghandi is theson of ….AcknowledgementsThis work has been partially supported by theEuropean Commission (MEANING IST-2001-34460), the Spanish Education ministrythough the KNOW project (TIN2006-15049-C03-01) and the Basque Country University(Consolidated Research Group GIU05/52).ReferencesAtserias, J., L. Villarejo, G. Rigau, E. Agirre,J. Carroll, B. Magnini, P. Vossen TheMEANING Multilingual CentralRepository. In Proceedings of the SecondInternational WordNet Conference-GWC2004 pg. 23-30 January 2004, Brno, CzechRepublic. ISBN 80-210-3302-9Fellbaum, C. (ed) (1998) WordNet. AnElectronic Lexical Database, The MITPress.Gonzalo, J., F. Verdejo, I. Chugur and J.Cigarrán (1998) Indexing with WordNetsynsets can improve text retrieval.Proceedings of the ACL/COLING98Workshop on Usage of WordNet forNatural Language Processing. SandaHarabagiu ed.Magnini, B. and G Cavagliá (2000)Integrating subject field codes intowordnet. Proceedings of the SecondInternational Conference on LanguageResources and Evaluation LREC’2000,Athens, Greece.Resnik, P, Word Sense Disambiguation inNLP Applications, in Eneko Agirre andPhilip Edmonds (eds.), Word SenseDisambiguation: Algorithms andApplications, Springer (2006).Rigau, G., B. Magnini, E. Agirre, P. Vossenand J. Carroll (2002) Unsupervised wordsense disambiguation rivaling supervisedmethods. Proceedings of COLINGWorkshop, Taipei, Taiwan.Rigau, G and E. Agirre and J. Atserias (2003)The MEANING project. Proceedings of theXIX Congreso de la Sociedad Espagna parael Procesamiento del Lenguaje Natural(SEPLN'03), Alacalte Henares, Spain.Sanderson, M. (1994) Word sensedisambiguation and information retrieval.Proceedings of 17th InternationalConference on Research and Developmentin Information Retrieval, 1994.Voorhees E, M. (1994) Query expansionusing lexical semantic relations:Proceedings of the 17th AnnualInternational ACM_SIGIR Conference on14


MCR for CLIRResearch and Development in InformationRetrieval.Vossen, P. (ed) (1998) EuroWordNet: AMultilingual Database with LexicalSemantic Networks, Kluwer AcademicPublishers, Dordrecht.Walker, M., D. Litman, C. Kamm, and A.Abella. (1997) PARADISE: A Frameworkfor Evaluating Spoken Dialogue Agents.Proceedings of the 35 th Annual Meeting ofthe Association for ComputationalLinguistics, ACL-97, Madrid, Spain.15


Representación formal de la estructura lógica de sitios web, y suaplicación a un navegador web multilingüe basado en diálogoFernando Martínez Santiago, Arturo Montejo Ráezy Miguel Ángel García CumbrerasDpto. de Informática, Universidad de JaénCampus de las Lagunillas s/n, 23071 - Jaéndofer@ujaen.es, amontejo@ujaen.es, magc@ujaen.esResumen: Un problema bien conocido de HTML es el pobre contenido semánticode sus etiquetas, dejando la tarea de interpretar los distintos elementos y seccionesque conforman el sitio web al usuario. Frente a ello, iniciativas como la web semánticaproponen percibir la web como una red de ontologías de manera que el significadode un sitio web sea computacionalmente accesible. Entre ambos extremos, en estetrabajo se propone un formalismo denominado Web Logic Forms (WLF) que permiterepresentar de manera formal cómo la información esta estructurada en un sitioweb, pero sin entrar en la representación del contenido textual del sitio. De estamanera es posible que el sitio web sea presentado de una manera conveniente alusuario en otros caminos distintos al meramente visual. Es por ello que la aportaciónaquí propuesta no consiste en permitir realizar nuevas y complejas tareas sobre laweb tal como persigue la web semántica, sino dotar de la formalidad suficiente a unapágina expresada en HTML para que permita al navegador u otro software conocercómo se distribuye y estructura la información allí codificada. En esta línea en sepropone un navegador web basado en diálogo apropiado para personas invidentes opara su uso en dispositivos portátiles.Palabras clave: lógica de predicados primer orden (LPO), Web Logic Forms(WLF), Web Logic Forms Rules (WLFR), HTML, gestor de diálogo, navegadorwebAbstract: HTML tags have poor semantic meaning because the final user of the webis supposed to be a human being with several skills. The user has understand the website by means of natural language, visual features of text and images, etc. Semanticweb deals to create a net of ontogies into the web by describing the meaning of thesite in a more formal way. In this work, we propose a formal representation namedWeb Logic Forms (WLF) between HTML and semantic web in order to represent thelogic structure of a web site. Thus, the navigator is able to present the informationof the site in a more appropriate way for a given user. By example, the navigatorwas able to present the information without any visual object, by “reading” theinformation by using structural aspects of the site such as headings, sections, news,etc. In order to test WLF, we propose a web navigator based on dialog suitable forblind persons or navigation by using small portable devices such as PDAs or smartphones.Keywords: first order logic, Web Logic Forms (WLF), Web Logic Forms Rules(WLFR), HTML, dialog manager, web navigator1. IntroducciónQue la Web ha supuesto una revoluciónen el modo de publicar y acceder a la informaciónes algo ya asumido desde hace tiempo.Sin embargo, este trasiego de informacióndista de ser universal debido a limitacionesimpuestas en los diversos elementos necesariospara que la comunicación entre el usuarioy sitio web sea posible. En todo acto de comunicaciónse requiere un emisor, un receptor,un canal, un mensaje, un código y un contexto.En el caso de la web existen diversas restriccionessobre cada uno de estos elementosque limitan su acceso. En concreto, el códigoimperante en la web (HTML+lenguaje natural+gráficos..)dista de ser universal, pues enla mayoría de los casos asume un perfil determinadode receptor:Para poder navegar, el receptor debe es-ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbrerastar capacitado para percibir la estructuradel sitio atendiendo a aspectos visualestales como tamaño del texto, ubicacióndel texto dentro de la página, etc.Para poder comprender el mensaje, el receptordebe ser capaz de leer e interpretarel código utilizado en la redacción delmensaje, primordialmente lenguaje naturale imágenes.Si de lo que se trata es de ampliar el tipode receptores capacitados para interpretar elcontenido del mensaje, por ejemplo cuandoel receptor es un programa de ordenador, entonceses la comunidad dedicada al estudioy desarrollo de la web semántica la que seocupa de ello 1 (Berners-Lee, Hendler, y Lassila,2001). Si, por el contrario, la limitaciónno la impone la capacidad cognitiva del receptor,si no la imposibilidad, por un motivou otro, de percibir la información codificadaen el sitio web, entoces es un aspecto investigadodentro del área de accesibilidad webo WAI (web accessibility iniciative) 2 . Estainiciativa anima al diseño de sitios web quesean más fácilmente accesibles por personascon algún tipo de discapacidad. Sin embargo,son pocos los sitios que tienen en cuentalas recomendaciones más básicas en cuanto aaccesibilidad.En este trabajo se propone un enfoqueoriginal para superar la limitación quesupone el “aspecto” de la mayoría de los sitiosweb. Este enfoque requiere añadir el gradode formalismo necesario para que un navegadorpueda “conocer” cómo está la informaciónestructurada, aunque finalmente nosepa de qué se habla allí. Para ello, se proponeun formalismo denominado Web LogicForms (WLF) derivado directamente a partirde HTML, y unas reglas que operan sobreWLF, denominadas WLFR (WLF Rules).WLF+WLFR permite dotar al navegador dela información suficiente referente a la estructuradel sitio web como para mostrar tal informaciónde la manera que resulte más adecuadaal perfil de usuario. La conversión deun sitio ya existente al formalismo aquí propuestosi bien no es automática, es sencillapues se reduce a acompañar el sitio webcon un conjunto de reglas WLFR que permitaal navegador interpretar correctamente1 Web semántica: http://www.w3.org/2001/sw2 Iniciativa para la accesibilidad de la web:http://www.w3.org/WAIlas etiquetas HTML de una manera similara como las interpretaría una persona cuandopercibe la expresión visual de tales etiquetas.Por ejemplo, una de tales reglas podría indicarque textos escritos en negrita y de undeterminado tamaño son titulares, o que losenlaces que se encuentran precedidos de unadeterminada etiqueta son secciones.El resto del presente artículo está estructuradocomo sigue: En la sección 2 se repasabrevemente diversas tecnologías relacionadascon el problema abordado. En la sección 3 sepresenta con detalle el formalismo propuestopara la descripción formal de la estructuralógica de un sitio web, WLF. A continuaciónse describe brevemente un navegadorweb basado en diálogo que hace uso deWLF+WLFR. Y finalmente, se discuten algunosaspectos relevantes y líneas de trabajofuturas que quedan abiertas a partir de lapresente investigación.2. Trabajo relacionadoEn la figura 1 se muestran diversos códigoso lenguajes ordenados según su capacidadexpresiva y el coste computacional para lamanipulación automática del mensaje escritomediante tal código. En un extremo queda ladescripción de un sitio web expresado exclusivamenteen lenguaje natural. Un sitio webcuyo contenido y estructura lógica sea descritaexclusivamente usando lenguaje naturaltiene una gran capacidad expresiva peroes inviable computacionalmente. Próximo aeste extremo se encuentra el conjunto formadopor HTML, junto con todo aquello que nose corresponde con un elemento de marcado:lenguaje natural, gráficos, sonidos. . . Porello, que un algorítmo pueda “compreder” lainformción codificada en un sitio web es casitan difícil como si de texto plano se tratara.El otro extremo de la cadena quedan aquellossitios web cuyo significado está exclusivamentecodificado en algún lenguaje formal, sies que ello fuera posible. Esto aseguraría quela semántica de ese sitio web es manejableen términos computacionales, pero a costade severas limitaciones expresivas (Levesquey Brachman, ). Un equilibrio deseable entreambos extremos lo representa RDF y OWL 3 .OWL es el acrónimo del inglés Web OntologyLanguage, un lenguaje de marcado parapublicar y compartir datos usando ontologías3 RDF: http://www.w3c.org/rdf,OWL:http://www.w3c.org/owl18


Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogoFigura 1: Idoneidad de algunos lenguajes (complementados con lenguaje natural, imágenes...)utilizados para codificar el significado de un sitio web.en la Web. OWL, en su versión más popular,OWL-DL, es una implementación de lógicadescriptiva (Baader et al., 2003) que toma lasintaxis de un modelo de marcado construidosobre RDF y codificado en XML. Así, un usoadecuado de OWL permite el razonamientoautomático sobre el contenido de un sitioweb, y requiere el diseño de una ontologíaque describa los objetos relevantes presentesen tal sitio Web y relaciones entre éstos. Elproblema es que esa ontología tiene que sercodificada por un experto, y esta tarea distamucho de ser trivial.Existen diversas propuestas para representarprincipalmente la estructúra lógica delsitio web, y es en este ámbito donde mejor encuadrael presente trabajo. Así, en (Martínez-Santiago, Ureña, y García-Vega, 2001) se proponeuna herramienta que permite derivara partir de ciertos sitios web un documentoXML con etiquetas tales como “autor”, “título”,“sección”. Este modelo requiere describirmediante un conjunto de sencillas reglascómo extraer tales etiquetas del sitio web. Unaspecto destacable es la naturaleza jerárquicade tales reglas de tal modo que es posiblecrear reglas que se aplican a cualquier páginaweb, sólo a las páginas pertenecientes a unsitio web, a una sección de ese sitio web, o inclusoa una página determinada. Por contra,es una herramienta que queda limitada por elconjunto de reglas disponible, así como porsu orientación a explorar sitios de contenidoperiodístico por lo que le presupone una estructuraciónal sitio bastante rígida. En estalínea, el trabajo propuesto en (Chan y Li,2000) que aporta algo más de flexibilidad graciasal uso de XSL como formalismo principalpara representar aquellas reglas que permitenextraer información semántica del sitio web.Nótese que en ambos casos es necesario elaborarun conjunto de reglas mediante la exploracióndel sitio web que se desea tratar.Es en estas reglas justamente donde se codificala semántica adicional con que se quiereenriquecer tal sitio, al modo en que, por ejemplo,OWL puede describir el contenido de unsitio web, sólo que aquí la dificultad es menor,pues no se trata de describir el contenido sinola estructura lógica del sitio.Por otra parte, existe una amplia variedadde formalismos de representación quedan soporte a diversos wrappers web tal comoWHIRL(Cohen, 2000). Este lenguaje, quetambién tiene inspiración logica, tiene unacapacidad expresiva adecuada para obteneruna representación formal de todo el contenidodel sitio web, por lo que excede elobjetivo de WLF, y su complejidad. El esfuerzoque requiere escribir y mantener unwrapper para uno de estos lenguajes es similaral que se requería en una web semántica.Por ello, existen esfuerzos por conseguir automatizarla escritura de wrappers mediantetécnicas de aprendizaje automático y mineríade datos, pero es difícil, con el estado de latecnología actual, que una máquina “aprenda”el contenido semántico de una web porsí sola. Sin embargo, dado que WLF se centraen la estructura del sitio, y no en su contenido,el esfuerzo de escribir y mantener unode tales wrappers es mucho menor. Por todoello, el motivo último de WLF es describirun lenguaje computacionalmente asumible,de fácil escritura, y que aún así tenga ungrado de formalismo útil para diversas tareas,como ADN, el navegador multilingüe basadoen diálogo descrito en la segunda parte deeste artículo.19


Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García CumbrerasCuadro 1: Algunas frases y la forma lógica obtenidaJuan vuela desde Tokio hasta NuevaYorkJuan [P](x1 ) volar [V](e1 x1 ) desde [P]( e1 x2 )Tokio [N](x2 ) hasta [P]( x2 x3 ) Nueva York [N](x3 )John es golpeado por una pelota John [N](x1 ) golpear [V](e1 x2 x1 ) por [P]( e1 x2 )pelota [N](x2 )En vez de alubias comeré pizza En vez de [P]( x2 x1 ) alubias [N](x1 ) comer [V](e1x2) pizza [N](x2)El baloncesto y el tenis son grandesdeportesbaloncesto [N](x1 ) y [C](x3 x1 x2 ) tenis [N](x2 )ser [V](e1 x3 x4) grande [A] (x4) deporte [N](x4 )El profesor permitió un periodo de profesor [N](x1 ) permitir [V](e1 x1 x3) periododescanso[N](x3 ) de [P]( x3 x2 ) descanso [N](x2 )3. WLF+WLFR: Descripciónformal de la estructura lógicade un sitio webWeb Logic Forms toma su nombre delformalismo para la representación semánticadel lenguaje natural conocido como identificaciónde formas lógicas (Rus, 2002). La identificaciónde formas lógicas es un formalismobasado en lógica de predicados de primer orden(LPO) que pretende obtener una representacióndel lenguaje natural situada entreel nivel sintáctico y semántico partir de untexto expresado en lenguaje natural. La basede tal formalismo es la lógica de predicadosde primer orden, de tal manera que a cadapalabra presente en el texto se le asigna unpredicado. A su vez cada predicado puedetener varios argumentos que representan larelación de ese predicado con otros elementosde la frase.La identificación de la forma lógicas esuna tarea compleja que requiere un análisissintáctico del texto y, usualmente, un conjuntode reglas que permita interpretar el árbolsintáctico. Realmente, en el caso de WLF latarea es más sencilla al tratarse de un lenguajeformal como es HTML, que además tieneun sintaxis sencilla y muy homogénea consituídabásicamente por una secuencia de etiquetasque ocasionalmente incluyen algunosatributos y o algún texto que acompaña a laetiqueta y sobre el cual opera. En la tabla 1se muestran algunos ejemplos de frases juntoa su forma lógica equivalente.De manera análoga se identifica la formalógica de una página HTML. Los elementosHTML se corresponden con un predicado,cuyo primer argumento es una constante exclusivade ese predicado, y que representará aese elemento HTML allí donde haga falta.Más detalladamente, los pasos para obtenerla forma lógica de una página HTML son lossiguientes:Cada etiqueta HTML se representa medianteun predicado. Cada ocurrencia deesa etiqueta se identifica mediante unaconstante que es el primer argumento delpredicado equivalente. A modo de ejemplo,de la etiqueta < html > obtenemosla forma lógica html(h1). El significadode cada argumento que recibe el predicadodepende de la posición que éste ocupa:1. Constante que representa a una instanciadeterminada de una etiquetaHTML.2. Etiqueta HTML de la que depende(“none”, si no depende de ninguna).De esta manera se representa la naturalezajerárquica de HTML.3. Indica si se marca el inicio (open) ofin (close) de una sección.4. Número de etiqueta. Un númeroúnico que se corresponde con el lugarde aparación de la etiqueta dentrode la página. Realmente, esteargumento es una forma alternativade referirse a la etiqueta que representa,cuando resulta de utilidadtener en cuenta el orden relativo entreetiquetas.Cada atributo HTML se representa mediante,al menos, dos predicados, uno representael atributo, y otro el valor quetoma. El atributo queda identificado porla constante que representa a la etiquetade la cual depende ese atributo, juntocon el nombre del atributo.El texto entre etiquetas se representa conel predicado “text”, cuyo identificador se20


Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogocorresponde con el identificador de la etiquetaHTML que le contiene.En la tabla 2 se muestran algunos ejemplosde código HTML con su correspondienteforma lógica.3.1. Extracción de la estructuralógica de un sitio webYa que la WLF es una reescritura deHTML utilizando lógica de predicados deprimer orden, el grado de formalismo de lapágina original y la derivada es el mismo,pero con la ventaja de que ahora contamoscon las herramientas propias de la lógica paramanipular ese código y obtener así una basede conocimiento con información relativa ala estructura lógica del sitio web. Así pues,para extraer información sobre aspectos estructuralesdel sitio web es necesario escribirreglas que identifiquen los elementos relevantesde la página: título, secciones, titulares,enlaces, etc. Nótese que, a diferenciadel lenguaje natural donde la semántica deuna frase queda determinada en buena medidapor la sintaxis de ésta (Levin, 1993),HTML informa escasamente sobre el significadodel mensaje codificado mediante su uso(esto es, cómo se organiza la información almacenada).Ésta es una diferencia primordialentre la identificación de formas lógicasy WLF. Mientras que en la mayoría delos casos, para identificar la forma lógica deuna frase es suficiente con un conjunto finitode reglas (salvo en caso de ambigüedadsintáctica), en el caso del HTML esas reglasson completamente dependientes de cadapágina web que se desea manipular, debidoa que HTML no está concebido parainformar sobre la estructura lógica del sitioweb que describe. Nótese que para que aplicacionesterceras puedan aprovechar convenientementela información extraída es convenienteque tales reglas sigan alguna ontologíasencilla que enumere y describa los objetosestructurales de la página y como cómo serelacionan. En la figura 2 se esquematiza elproceso. Nótese que la obtención de la formalógica es independiente del sitio, pero noasí la base de conocimiento, que es el resultadode aplicar a WLF las reglas escritas a talefecto mediante algún demostrador de teoremasautomático. En el anexo 1 se muestrael resultado final obtenido a partir de códigoHTML real extraído de un diario digital. Algunoshechos que típicamente se pueden preguntara la base de conocimiento resultanteson las secciones que se encuentran en la página,el título o los productos que se ofertan,si se tratara de un sitio dedicado al comercioelectrónico.4. ADN: Un navegador webgestor de diálogo basado enWLFPresentar la información de un sitio webmediante el uso exclusivo de voz o texto, sinapoyo de formato alguno, dista de ser unatarea trivial. Existen algunos productos comercialescomo JAWS (acrónimo de Job AccessWith Speech) 4 , que permiten al usuario interactuarcon un navegador basado en textoy leer secuencialmente la página web. Claramente,esta forma de navegar resulta pesadacuando se trata de leer o acceder a algunasección de un sitio web comercial, queusualmente presenta una gran cantidad de informaciónal usuario, el cual percibe visualmentelos diversos componentes de tal páginaweb, centrándose así rápidamente en aquellosaspectos de su interés (buscar una sección,leer los titulares, la descripción de unproducto, etc). Ya que WLF+WLFR permiterepresentar formalmente la estructura lógicade un sitio web, es posible que un navegadoraproveche esa información para presentarla página web de una manera ordenada.Por ejemplo, sería posible que en un diariodado, diera al usuario la opción de leer los titulareso enumerar las secciones disponibles.Leer, si así lo desea el usuario, la entradillade algún titular y posteriormente el contenidocompleto de la noticia, etc. En estasección a se presenta ADN (del inglés, ADialog-based Navigator). ADN permite graciasal uso de WLF+WLFR navegar de unamanera eficiente sin utilizar para ello c´digovisual alguno, tan sólo un uso controlado dellenguaje natural. Además, el hecho de queel navegador conozca la estructura del sitioweb permite que la navegación mediante textopueda realizarse en el idioma del usuario,siempre que se haya realizado previamente lalocalización necesaria.A continuación se describen los dos módulosprincipales de que consta ADN: el gestorde contenidos web y el gestor de diálogo.4 JAWS: http://www.freedomscientific.com21


Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García CumbrerasCuadro 2: Una porción de código HTML junto con su forma lógica equivalenteHTMLWLFhtml(h1, none, open,1) Diario Digital title(h2, h1, open, 2)text(h2,“Diario Digital”)title(h2, h1, closed, 3) body(h3, h2, open, 4) a(h4,h3,open,5)attr(“a”,h4)fullValue(“a”,h4,“/opinion/col1.html”)Figura 2: Esquema del proceso de extracción de la estructura lógica de un sitio web4.1. El gestor de contenido webEste módulo tiene capacidad para descargarpáginas web, derivar la forma lógica detal página y razonar sobre ella usando lasreglas escritas a tal efecto. En cierta forma,se comporta como una base de conocimientoextraída de la web mediante el uso combinadode WLF+WLFR junto con algún demostradorde teoremas automático. En estetrabajo el demostrador de teoremas usado esOTTER 5 , que es un completo sistema de deducciónautomático basado LPO con capacidadpara manejar la igualdad mediante demodulacióny paramodulación y estrategiasde búsqueda tales como hiperresolución o resoluciónbinaria. Es el demostrador de teoremasbasado en lógica de primer orden más extendidoen la actualidad. Se ha elegido por estarbien documentado, ser sobradamente potente,y lo bastante rápido como para usarloen tiempo real (al menos para las demostracionesaquí requeridas).Finalmente el gestor de contenidos webtambién cuenta con una pequeña base dedatos que permite anotar información referenteal perfil de usuario, cookies, o cualquierdato que por un motivo u otro deba almacenarse.5 OTTER: http://wwwunix.mcs.anl.gov/AR/otter4.2. El gestor de diálogoEl gestor de diálogo, que interactúa conla base de conocimiento en función de las ordenesque reciba del usuario. Más concretamente,el gestor de diálogo sigue un modelobasado en redes de transición aumentadaso ATNs (Augmented Transition Networks)(Woods, 1970),(Woods, 1973). Existen variosejemplos en la literatura (Levy et al., 1997),(McTear, 1998), (Robinson et al., 2004), enlos que el gestor de diálogo se basa en unautómata. Este es un paradigma que permitemodelizar de una manera muy intuitiva aquellosdiálogos de carácter imperativo, con unescenario controlado y un número relativamentepequeño de alternativas en cada momento.Si esto no se cumple, cualquier tipo deautómata necesario para modelizar un actoconversacional se vuelve excesivamente complejo,pesado, y finalmente poco manejable.En nuestro caso, la lógica de una ATN seadapta muy naturalmente al modo que usualmentenavegamos, tal como se describe a continuación.Una ATN es una red recursiva cuyastransiciones cuentan con unos registros quepueden ser leídos (operación test) o escritos(operación action) antes o después de pasaral siguiente estado. A su vez, una red recursivaes, en esencia, una automáta finito deterministadonde se permite que una transición22


Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogoFigura 3: Arquitectura del navegador multilingüe ADN.represente, además de un evento como es usual,un nuevo autómata. La transición se completaen el momento que el nuevo autómatallega a un estado final. De esta manera,se crea una pila de autómatas conforme seva transitando a través del ATN, de manerasimilar a como se apilan los sitios weben el historial de un navegador web conformese visitan nuevos sitios. Así, cada autómatase corresponde con un sitio web, y cada estadorepresenta una página determinada. Finalmente,una transición queda descrita porlos siguientes elementos:Operación test. Precondiciones quedeben cumplirse para que tal transiciónse lleve a cabo. Por ejemplo, que elusuario esté registrado. Este tipo deinformación generalmente se obtiene apartir de la base de datos contenida enel gestor de navegación.Eventos. Órdenes de usuario que dirigenla navegación a través del sitio. Estas ordenesse corresponden más o menos conla interacción usual con un navegadorweb. Se permite cierto grado de flexibilidadmediante el uso de expresionesregulares. Este enfoque, si bien es sencillo,resulta adecuado pues se trata deun diálogo sobre un dominio bien delimitadoy dirigido por el navegador web.Generalemente, se tratará de respuestasa preguntas concretras de ADN, como“¿Quiere visitar la sección de nacional,internacional o deportes?”.Operación action. Postcondiciones comoresultado de la ejecución de la transición.Por ejemplo, si se abandona un estadoque representa una página de identificación,podría almacenarse ahora elnombre de usuario y la clave facilitada.En la figura 3 se muestra la arquitecturapropuesta tomando como ejemplo un diariodigital.La mayor limitación de ADN es que sólopuede navegar sobre aquellas páginas webpara las cuales se han creado las reglas WL-FR pertinentes y, además, se ha diseñado elautomáta que describa el modo de navegaren ese sitio web, si bien es posible crearautómatas estándar para grupos de sitiosweb que compartan una estructura de navegaciónsimilar. Por ejemplo, es posible crearun autómata para diarios, otro para comercioelectrónico, otro para blogs, etc. Las peculiaridadesde cada uno de estos sitios sonocultadas por el gestor de navegación a travésde la base de conocimiento.Actualmente, existe un primer prototipode ADN que opera sobre dos diarios enespañol (El Mundo y el diario deportivoSPORT), uno inglés (The Guardian) y unofrancés (Le Monde), que confirma la viabilidadde la arquitectura, si bien aun falta porprobar el enfoque en sitios que requieren ungrado más alto de interactividad, como unsitio de comercio electrónico, por ejemplo.5. Consideraciones sobre larelación entre WLF y OWLYa que OWL permite describir el contenidode un sitio web, ¿por qué no usar directamenteOWL?. Realmente, el hecho de describirla estructura de la página web usandológica de predicados de primer orden o OWL23


Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García Cumbrerases irrelevante. OWL en su versión más equilibrada,OWL-DL, es una implementación dela lógica descriptiva que es a su vez un subconjuntode la lógica de predicados de primerorden. Así que el paso de LPO a OWL es máso menos trivial, si bien es cierto que OWL es,en cierta forma, una especialización de LPO,muy orientado a escribir ontologías y razonarsobre ellas. Es adecuado pues para representarqué contiene un sitio web, y no tanto cómoestá organizado tal sitio, para lo cual en estetrabajo se ha preferido la capacidad expresivade la lógica tradicional. En cualquier casoWLF no es una alternativa a OWL, sinoun procedimiento para derivar la forma lógicade un sitio web. El lenguaje usado paracodificar la forma lógica para posteriormenterazonar sobre ella es secundario. En definitiva,no supone más que una pequeña variaciónsobre el mismo tema implementar WLF sobreOWL.6. Conclusiones y trabajo futuroSe ha presentado un procedimiento denominadoWLF que permite representarHTML mediante LPO. Ello permite, enprimer lugar, dotar a la página de informaciónreferente a la estructura lógicadel sitio web. Esta información realmenteya está latente en la página. Elproblema es que el lenguaje usado paraello (HTML+texto+imagenes+...), es extremadamentevago e impreciso, y por lo tantointratable computacionalmente. Lo que eluso combinado WLF y WLFR posibilita esjustamente tratar de manera automática laestructura lógica del sitio web, de forma similara cómo la web semántica permite explotarel contenido de tal sitio, más allá de cómo talcontenido se muestre de cara al usuario.Un ejemplo práctico de uso deWLF+WLFR es el navegador web conversacionalmultilingüe ADN, que interactúacon el usuario usando exclusivamentelenguaje natural, presentando al usuario lainformación de manera ordenada y conveniente.Además, dado que ADN conoce laestructura lógica del sitio es posible interactuarcon el usuario en el idioma de éste,con independencia del idioma utilizado en elsitio web, si bien es cierto que la informaciónfinalmente solicitada se mostrará en elidioma original, salvo que se traduzca. ADNes un relativamente sencillo gestor de diálogobasado en ATNs. Cada ATN representa unsitio web. Los estados son páginas o tipos depáginas concretos de tal sitio, las accionesson órdenes de usuario que permiten saltarde una página a otra, o a otro sitio web.Ya que la web no es sólo HTML, una líneade trabajo futura es ampliar la definción deWLF a otros lenguajes comunes en la codificaciónde sitios web, tales como XML+XSLo lenguajes script.Por otra parte, la mayor limitación quetiene WLF es que requiere de la escriturade las reglas WLFR mediante el análisismanual del texto HTML. Esperar que estatarea se pudiera realizar de manera totalmenteautomática es casi tanto como quererque, al día de hoy, una máquina puedacomprender lenguaje natural en toda suriqueza. En cualquier caso, si es posible realizarherramientas de apoyo, que mediantealgorítmos de aprendizaje automático supervisado,puedan ayudar al experto humano enel desarrollo de las reglas WLFR.En lo relativo al navegador ADN, actualmentese está evaluando con buenos resultadosla eficacia del navegador en sitios que requieranun alto grado de interacción, tal comola realización de un pedido. Un segundoaspecto más ambicioso es dotar al gestor dediálogo de cierta capacidad de comprensiónde lenguaje natural y planificación. Una comprensiónmás elaborada del lenguaje naturalpermitiría diseñar planes para dar respuestaa solicitudes de usuario que conlleven realizarmás de una acción a partir de una únicasentencia, tales como “navega a la sección dedeportes de El País”,que requiere navegar aldiario y luego a la sección solicitada, o “listalos productos de la sección de electrodomésticosde El Corte Inglés”.7. AgradecimientosEste trabajo ha sido financiado parcialmentemediante el proyecto TIMOM(TIN2006-15265-C06-03), del Ministerio deCiencia y Tecnología, y el proyecto de investigaciónde la Universidad de Jaén con códigoRFC/PP2006/Id 514.BibliografíaBaader, Franz, Diego Calvanese, Deborah L.McGuinness, Daniele Nardi, y Peter F.Patel-Schneider, editores. 2003. The DescriptionLogic Handbook: Theory, Implementation,and Applications. CambridgeUniversity Press.24


Representación formal de la estructura lógica de sitios web, y su aplicación a un navegador web multilingüe basado en diálogoBerners-Lee, Tim, James Hendler, y Ora Lassila.2001. The Semantic Web. A newform of Web content that is meaningfulto computers will unleash a revolution ofnew possibilities. The Scientific American,Mayo.Chan, Jessica Choi Yuk y Qing Li. 2000.WebReader: A Mechanism for Automatingthe Search and Collecting Informationfrom the World Wide Web. En WISE,volumen 2, páginas 20–47.Cohen, William W. 2000. WHIRL:A word-based information representationlanguage. Artif. Intell., 118(1-2):163–196.Levesque, Hector J. y Ronald J. Brachman.Readings in Knowledge Representation.Levin, Beth. 1993. English Verb Classesand Alternations: A Preliminary Investigation.University of Chicago Press,Chicago, IL.Levy, D., R. Catizone, B. Battacharia,A. Krotov, y Y. Wilks. 1997. Converse:A conversational companion. En Proceedingsof the First International Workshopon Human-Computer Conversation, páginas27–34, Bellagio, Italia.Martínez-Santiago, Fernando, AlfonsoUreña, y Manuel García-Vega. 2001.WWW como fuente de recursos lingüísticos.Sociedad Española para el Procesamientodel Lenguaje Natural, 27:41–70.McTear, M. 1998. Modelling spoken dialogueswith state transition diagrams: experienceswith the cslu. En ICSLP.Robinson, Kerry, D. Horowitz, E. Bobadilla,M. Lascelles, y A. Suarez. 2004. Modellingspoken dialogues with state transitiondiagrams: experiences with the cslu.En SIGDIAL.Rus, Vasile. 2002. Logic Form For Word-Net Glosses and Application to QuestionAnswering. Ph.D. tesis, ComputerScience Department, School of Engineering,Southern Methodist University, Dallas,Texas.Woods, W. A., 1973. Natural Language Processing.Algorithmics Press, capítulo Anexperimental parsing system for transitionnetwork grammars, páginas 111–154.Rustin, R., New York.Woods, W.A. 1970. Transition networkgrammars for natural language analysis.En CACM, volumen 13, páginas 591–606.25


Fernando Martínez Santiago, Arturo Montejo Ráez, Miguel Ángel García CumbrerasAnexo I. Ejemplo de WLF+WLFR sobre código HTMLHTMLVillepin autoriza el toque de queda en los lugares azotados por la violencia callejeraWLFdiv(h1,none,open,1)attr(“class”,h1)fullValue(“class”,h1),“tituno”)a(h2,h1,open,2)attr(“href”,h2)fullValue(“href”,h2,“/elmundo/2005/11/07/sociedad/1131392990.html”)attr(“class”,h2)fullValue(“class”,h2,“tituno”)text(h2,“Villepin autoriza el toque de queda en los lugares azotados por la violencia callejera”)a(h2,h1,close,3)div(h1,none,close,4)WLFRObtener el titular:all x1 x2 x3 div(x1,none,open,x3) & fullValue(“class”,x1)=“tituno” & a(x2,x1,open) &text(x2)→diario.titular.texto(x2)Obtener la URL de la noticia:all x1 x2 x3 div(x1,none,open,x3) & fullValue(“class”,x1)=“tituno” & a(x2,x1,open) &fullValue(“href”,x2) →diario.titular.url(x2)Algunas preguntas a la BC¿Cuál es el titular?ask: exists x diario.titular.texto(x)→ diario.titular.text(“Villepin autoriza el toque de queda en los lugares azotados porla violencia callejera”)¿Cuál es la URL de la noticia?ask: exists x diario.titular.noticia(x)→ diario.titular.url(“/elmundo/2005/11/07/sociedad/1131392990.html”)26


Búsqueda de Respuestas Bilingüe basada en ILI,el sistema BRILI ∗Sergio Ferrández, Antonio Ferrández, Sandra Roger y Pilar López–MorenoGrupo de Investigación en Procesamiento del Lenguaje Naturaly Sistemas de InformaciónDepartamento de Lenguajes y Sistemas InformáticosUniversidad de AlicanteCarretera San Vicente s/n 03690 Alicante España{sferrandez,antonio,sroger}@dlsi.ua.es P.Lopez@ua.esResumen: Este artículo presenta nuestro sistema de Búsqueda de Respuestas (BR)bilingüe, llamado BRILI. BRILI ha participado en la tarea de BR Inglés–Castellanode la edición del 2006 del “Cross-Language Evaluation Forum” (CLEF) quedandoen primera posición. BRILI está basado en el uso del módulo ILI (“Inter LingualIndex”) de EuroWordNet. Además, se muestra una evaluación sobre el conjunto depreguntas oficiales del CLEF que justifica nuestra estrategia.Palabras clave: Búsqueda de Respuestas Multilingüe, ILI, EuroWordNetAbstract: This paper presents our Cross-lingual Question Answering (CL-QA) system,called BRILI. It has participated in the 2006 edition of the Cross-LanguageEvaluation Forum (CLEF) being ranked first at English–Spanish Question Answeringtask. BRILI is based on the Inter Lingual Index (ILI) Module of EuroWordNet.Besides, tests on official questions from the CLEF justify our strategy.Keywords: Cross–Lingual Question Answering, ILI, EuroWordNet1. IntroducciónEn estos últimos años, el volumen de informacióntextual en lenguaje natural en diferentesidiomas ha crecido exponencialmente.Este hecho implica la necesidad de grannúmero de herramientas de Recuperación deInformación (RI) que permitan a los usuariosrealizar búsquedas de información multilingüe.Tareas multilingües en RI y Búsqueda deRespuestas (BR) han sido reconocidas comoun importante uso en el acceso de informaciónon-line, este fenómeno fue corroboradoen la pasada edición del “Cross-LanguageEvaluation Forum”(CLEF) 2006 (Magnini etal., 2006).El objetivo que la BR persigue es encontrarrespuestas concisas a preguntas arbitrariasformuladas en lenguaje natural. En entornosmultilingües, las preguntas son formu-∗Este trabajo ha sido llevado a cabo por el consorcioQALL-ME, el Sexto Programa Marco de Investigaciónde la Unión Europea (UE), referencia: FP6-IST-033860. Los autores agradecen a la UE su apoyoeconómico, así como a los integrantes del consorcio,por su fructífera colaboración. Para más informaciónsobre el consorcio QALL-ME visite la página web delproyecto, http://qallme.itc.it/.las en lengua diferente a la de los documentosdonde se realiza la búsqueda de la respuesta.Este marco de trabajo incrementa la dificultaddel proceso de BR.En este artículo se presenta el sistemaBRILI (acrónimo de “Búsqueda de Repuestasusando ILI”), siendo el objetivo principal deeste artículo describir nuestra estrategia paraafrontar las tareas de BR multilingües (elprototipo de la arquitectura del sistema BRI-LI fue presentado previamente en (Ferrándezy Ferrández, 2006)). Además, se propone unaevaluación sobre los conjuntos de preguntasoficiales del CLEF que justifica la bondad denuestro método.El resto del artículo está organizado en:la sección 2 detalla el estado de la cuestiónestudiando los actuales sistemas de BR multilingüe.En la sección 3 la arquitectura delsistema BRILI es mostrada y analizada, haciendoespecial hincapié en la estrategia desarrolladapara procesar las tareas multilingües.La sección 4 presenta y discute los resultadosobtenidos de la evaluación del sistema usandolas preguntas oficiales del CLEF. Y finalmente,la sección 5 redacta nuestras conclusionesy trabajos futuros.ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-Moreno2. Estado de la CuestiónHoy en día, la mayoría de los actuales sistemasde BR multilingüe (Gillard et al., 2006;Sacaleanu, B. y G. Neumann, 2006; Sutcliffeet al., 2006; Tomás et al., 2006) están basadosen el uso de servicios on-line de TraducciónAutomática (TA). Esta tendencia fue confirmadael la edición del 2006 del CLEF (Magniniet al., 2006).La precisión de los sistemas de BR multilingüeestá directamente afectada por su capacidadde analizar y traducir correctamentela pregunta que reciben como entrada alproceso. Imperfectas o ambiguas traduccionesde las preguntas ocasionan un efecto negativoen la precisión global del sistema (unestudio sobre el efecto de la TA en la BRmultilingüe fue presentado en (Ferrández yFerrández, 2007)). Otro dato a tener en cuentay tomando como referencia a (Moldovan etal., 2003), es que la fase de Análisis de la Preguntaes responsable del 36.4 % del total delos errores en la BR de domino abierto.Esta sección se centra en la tarea de BRbilingüe inglés–castellano, con el objetivo decomparar estrategias y resultados de los actualessistemas de BR con nuestro sistema(BRILI). En la pasada edición del CLEF2006, tres diferentes estrategias han sido usadaspor los sistemas de BR para resolver dichatarea.El sistema (Whittaker et al., 2006) usauna herramienta de TA para traducir la preguntaal lenguaje en el que están escritos losdocumentos. Esta estrategia es la técnica mássimple utilizada hasta el momento. De hecho,cuando se compara el resultado del procesobilingüe con la ejecución monolingüe en Castellano,la precisión decrece en un 55 %. Estesistema pone de manifiesto la influencia negativade los servicios de TA en la BR multilingüe.Por otro lado, el sistema (Bowden et al.,2006) traduce el volumen total de documentosa la lengua en la que la pregunta es formulada.Este sistema utiliza un sistema deTA estadístico que ha sido entrenado usandoel “European Parliament Proceedings ParallelCorpus 1996–2003 ”(EUROPARL).Finalmente, el sistema BRUJA (García-Cumbreres et al., 2006) traduce la preguntautilizando diferentes servicios on–line de TAy heurísticas. Esta técnica consulta diferentesherramientas con el objetivo de obtener untraducción aceptable de la pregunta.Los tres métodos anteriormente descritosestán basados en el uso de herramientas deTA para llevar a cabo la tarea bilingüe deBR. Además, algunos de ellos intentan corregirlos errores originados por dichas herramientaspor medio de diferentes heurísticas.Asimismo, se debe tener en cuenta que labaja calidad de los sistemas de TA originanun cúmulo de errores dentro de todos las fasesde la BR. Estos hechos causan un decrementoimportante en la precisión global delos sistemas de BR. Esta situación puede sercorroborada en la pasada edición del CLEF2006 donde la precisión de los sistemas deBR multilingüe decrece alrededor del 50 % encomparación con las tareas monolingües.3. El sistema BRILIEn esta sección, se describe la arquitecturay funcionalidad de el sistema BRILI. Siendoel objetivo principal de esta sección detallarnuestra estrategia para afrontar la tarea bilingüede BR inglés–castellano.3.1. Arquitectura generalEl sistema BRILI esta implementado paralocalizar respuestas en documentos, dondepreguntas y documentos están escritos en lenguasdiferentes. El sistema se basa en el usode patrones sintácticos para analizar las preguntasy localizar las repuestas (para realizarestas tareas se utilizan diferentes herramientasde Procesamiento del Lenguaje Natural(Acebo et al., 1994; Ferrández, Palomar, yMoreno, 1999; Llopis y Vicedo, 2001; Schmid,1995)). Además, un algoritmo de “Word SenseDisambiguation (WSD)” es aplicado con elobjetivo de mejorar la precisión (una nuevapropuesta de WSD para nombre presentadaen (Ferrández et al., 2006)).La figura 1 muestra la arquitectura globaldel sistema BRILI.Para la primera implementación del sistemaBRILI, nos hemos apoyado en la fase deindexación de documentos y en el módulo dela extraction de la respuesta de nuestro sistemamonolingüe de BR llamado AliQAn (Rogeret al., 2005), el cual fue presentado porprimera vez en la edición del 2005 del CLEF.En las siguientes sub–secciones se detallaránlos módulos de Identificación del Lenguaje,la fase de Análisis de la Pregunta,el módulo de Referencia Entre Lenguas, elmódulo de Selección de Pasajes Relevantes yel módulo de la Extracción de la Respuesta.28


Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILIMóduloInglésMóduloCastellanoPreguntaMóduloCastellanoILIEuroWordNetRespuestaMódulo deIdentificacióndel LenguajeMÓDULO DEANÁLISIS DELA PREGUNTAMódulo de Referenciaentre LenguasMÓDULO DEEXTRACCIÓNDE LARESPUESTAPalabras Clave CastellanoDOCUMENTOSCASTELLANOMódulo de Selección dePasajes RelevantesIR-nFigura 1: Arquitectura del Sistema BRILI3.2. Módulo de Identificación delLenguajeEl módulo de Identificación del Lenguajeha sido desarrollado con el objetivo de distinguirautomáticamente el lenguaje en el queestá escrito el texto que recibe como entrada.Este módulo esté basado en dos técnicas:i) el uso de diccionarios (“stopwords” específicasdel lenguaje); ii) el uso de partes de laspalabras (por ejemplo, “-ing” en el caso deinglés). Esta filosofía presenta buenos resultados(Martínez, T., E. Noguera, R. Muñozy F. Llopis, 2005) para castellano e inglés.3.3. Módulo de Análisis de laPreguntaAntes de adentrarnos en la descripción dela fase de Análisis de la Pregunta se debentener en cuenta algunos aspectos.Nuestro método se basa fundamentalmenteen el análisis sintáctico de la pregunta y losdocumentos. Para desarrollar esta tarea, elsistema SUPAR (Ferrández, Palomar, y Moreno,1999) ha sido utilizado. A partir de lasalida que SUPAR proporciona, el sistemaBRILI extrae los Bloques Sintácticos (BS)de las preguntas y los documentos. Se detectantres tipos de BS: Sintagma Nominal(SN) simple, Sintagma Verbal (SV) y SintagmaPreposicional (SP). Estos BS forman launidad sintáctica básica para diseñar e implementarpatrones.El sistema BRILI desarrolla dos tareasprincipales en la fase de Análisis de la pregunta:Detectar el tipo de respuesta esperada.El sistema detecta el tipo deinformación que las posibles respuestasdeben satisfacer para llegar a ser respuestascandidatas (por ejemplo: nombrespropios, cantidades, fechas, etcétera)Identificar los principales BS de lapregunta. BRILI extrae los BS del apregunta que son útiles para encontrarlas respuestas en los documentos.Para la primera tarea, se ha diseñadouna taxonomía basada en “WordNetBased–Types” y “EuroWordNet Top–Concepts”. Nuestra clasificación se componede las siguientes categorías: persona,profesión, grupo, objeto, lugar–país, lugar–ciudad, lugar-capital, lugar, abreviatura,evento, numérico–económico, numérico–edad, numérico–medida, numérico–periodo,numérico–porcentaje, numérico–cantidad,temporal–año, temporal-mes, temporal–fecha, efeméride y definición.El tipo de respuesta esperada es detectadopor medio de un conjunto de patronessintácticos. El sistema posee alrededor de200 patrones para determinar la categoría dela pregunta dentro de nuestra taxonomía. Elprocedimiento es el siguiente: BRILI comparalos BS de los patrones con los BS de lapregunta, el resultado de estas comparacionesdeterminan el tipo.A continuación se muestra un ejemplo quedetalla el comportamiento de esta tarea:Pregunta 06 del CLEF 2006: Whichcountry did Iraq invade in 1990?29


Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-MorenoPatrón: [WHICH] [sinónimo deCOUNTRY]Tipo de Respuesta Esperada lugar–paísEl objetivo que la segunda tarea persiguees determinar qué BS de la pregunta son útilespara localizar las respuestas en los documentos.Además, en estos BS se encuentranlas palabras clave que deben ser traducidaspor el Módulo de Referencia Entre Lenguas.El ejemplo siguiente muestra el proceso de estatarea en una pregunta de tipo temporal–año.Pregunta 75 del CLEF 2006: Inwhich year was the Football World Cupcelebrated in the United States?SBs: [SN Football World Cup] + [SV tocelebrate] + [SP in [SN United States]]Palabras Clave: Football World Cupcelebrate United StatesAdemás, BRILI, con el objetivo de mejorarla búsqueda de las respuestas, descarta algunaspalabras de las preguntas. Por ejemplo,en la pregunta siguiente las palabras “can” y“be” no son utilizadas en la localización delas posibles respuestas.Pregunta 33 del CLEF 2004: Howcan an allergy be treated?SBs: [SV to treat] + [SN allergy]Palabras Clave: treat allergy3.4. Módulo de Referencia EntreLenguasEn está sub–sección se describe el módulode Referencia Entre Lenguas (REL) el cual seencarga de traducir las palabras clave de laspregunta a la lengua en la que se va a realizarla búsqueda de posibles respuestas.El módulo REL estable enlaces de referenciaentre las lenguas que forman la BRbilingüe. Dicho módulo recibe como entradalas palabras clave detectadas en la fase deAnálisis de la Pregunta. Con el objetivo deilustrar el proceso, veamos el siguiente ejemplo(Figura 2) en donde se muestran las referenciasestablecidas por el módulo REL parala palabra clave “president”.Cómo se aprecia en el ejemplo, el móduloLER encuentra más de una referencia en Castellanopara la palabra inglesa “president”.EnglishWordNetpresidentILISpanishWordNetpresidentedirectorrectorpresidentemoderador presidente presidentaFigura 2: Referencias para la palabra “president”La estrategia empleada para poder realizarla BR haciendo uso de toda la informaciónque ILI proporciona al sistema, es valorar yordenar todas las referencias establecidas porfrecuencia. En el ejemplo anterior, la palabraen Castellano más valorada sería “presidente”.Por otro lado, se debe tener en cuenta queen algunos casos el sistema se encuentra antepalabras inglesas que no están referenciadasal Castellano por el módulo ILI. En estoscasos el sistema utiliza un diccionario on–line 1 para poder determinar las traducciones.Además, el sistema BRILI se apoya en el usode colecciones bilingües de organizaciones ylugares para traducir este tipo de entidadesque en algunos casos no están referenciadaspor ILI.A su vez, con el objetivo de reducir el efectonegativo de traducciones incorrectas de algunosnombre propios, la fase de Extracciónde la Respuesta utiliza las palabras clave traducidaspor el módulo REL y dichas palabrasen el lenguaje original de la pregunta (teniendoen cuenta que las soluciones obtenidas apartir de dichas palabras son valoradas un20 % menos).La estrategia establecida en el móduloREL de no realizar una TA de la pregunta,que por otro lado es el objetivo real que persigueel sistema BRILI, se lleva a cabo graciasal análisis de la pregunta en su lenguaje originaly el uso del módulo ILI de EuroWordNet(Vossen, 1998).A continuación se muestra un ejemplo delproceso realizado por el módulo REL:Pregunta 101 del CLEF 2004: Whatarmy occupied Haiti?BS: [SN army] + [SV to occupy] + [SNHaiti]Tipo de Respuesta Esperada grupoPalabras Clave: army occupy Haiti1 http://www.wordreference.com30


Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILIReferencias :- army ↦→ ejército- occupy ↦→ absorber ocupar atraerresidir vivir colmar rellenar ocuparllenar- Haiti ↦→ HaitíPrincipales BS utilizados en la BR:[SN ejército] + [SV ocupar (verbo másvalorado)] + [SN Haití]3.5. Módulo de Selección depasajes RelevantesEl módulo de Selección de pasajes Relevantesse basa en el uso de la herramienta deRI, IR–n (Llopis y Vicedo, 2001).IR–n recibe como entrada las palabras clavetraducidas por el módulo REL, por ejemplo,en la pregunta 92 del CLEF 2006, “Whereis Interpol’s headquarters?”, IR-n recibelas palabras “Interpol” y “comandancia”.El sistema IR–n proporciona una lista depasajes relevantes en donde el sistema aplicarála búsqueda de respuestas candidatas.3.6. Módulo de Extracción de laRespuestaLa fase final del sistema BRILI se realizaen el módulo Extracción de la Respuesta.Dicho módulo usa los BS de la pregunta ydiferentes conjuntos de patrones sintácticos(según el tipo de respuesta espera) con informaciónléxica, sintáctica y semántica paralocalizar respuestas candidatas.En el ejemplo siguiente se muestra el procesocompleto de BR donde la aplicación deun patron de localización de respuestas es detallada.Pregunta 70 del CLEF 2005: WhichFrench president inaugurated the Eurotunnel?SB: [SN French president] + [SV toinaugurate]+ [SN Eurotunnel]Tipo de Respuesta Esperada personaPrincipales BS utilizados en la BR:[SN presidente francés] + [SV inaugurar]+[SN Eurotunel]Frase de los documentos: ... el PresidenteFrancés, Jacques Chirac, inauguróel Eurotunel ...Patrón sintáctico: [SN (“PresidenteFrancés”), aposición [SN (SOLU-CIÓN)]] + [SV (“inaugurar”)] + [SN“Eurotunel”)]Respuesta Candidata: Jacques Chirac4. Resultados Experimentales4.1. Entorno de EvaluaciónPara llevar a cabo la evaluación del sistemaque en este artículo se presenta, se hanutilizado los conjuntos de 200 preguntas delas tareas de BR de las ediciones del CLEF2004, 2005 y 2006 (en inglés y en castellano)y el conjunto de documentos en Castellano(“EFE 1994–1995 Spanish corpora”) propuestopor el CLEF para realizar las búsquedasde las soluciones. El corpus propuestoproporciona un marco de trabajo adecuadopara la evaluación de los sistemas de BR.El conjunto de preguntas está compuestoprincipalmente por “factoid questions”y “definition questions”. Las “factoid questions”sonpreguntas basadas en hechos, solicitanel nombre de una persona, una localidad,el día que ocurrió algo, etcétera.4.2. Análisis de ResultadosEl objetivo de estos experimentos es evaluary discutir la bondad de la estrategiade BR bilingüe diseñada e implementada enBRILI. Para realizar este análisis se proporcionanla precisión del sistema en su ejecuciónbilingüe inglés–castellano y monolingüe castellano.Más delante, se comparan los resultadoscon los actuales sistemas de BR bilingüepresentados de la pasada edición del CLEF2006.En el cuadro 4 se muestra la precisión 2 delsistema BRILI (ver filas 2,4 y 6). A su vez,estos resultados se comparan con la ejecuciónmonolingüe en castellano (ver filas 1, 3 y 5) ycon las presiciones obtenidas por los sistemasque en la actualidad forman el estado de lacuestión de la BR bilingüe (ver filas 7, 8 y 9).Cuando se compara la precisión obtenidaen las tareas de BR bilingüe con las ejecucionesmonolingües en Castellano, se apreciaque el decremento sufrido en la precisiónglobal del sistema BRILI está al rededor2 Para calcular la precisión de nuestros sistemas sehan considerado las respuestas correctas y las respuestasinexactas cuando éstas contienen más informaciónque la requerida por la pregunta.31


Sergio Fernández, Antonio Ferrández, Sandra Roger, Pilar López-MorenoSistema Conjunto de Datos Precisión ( %)CLEF 20041 AliQAn 200 Preguntas castellano 41.52 BRILI 200 Preguntas inglés 33.5CLEF 20053 AliQAn 200 Preguntas castellano 51.54 BRILI 200 Preguntas inglés 42.5CLEF 20065 AliQAn 200 Preguntas castellano 50.56 BRILI 200 Preguntas inglés 44Participantes en CLEF 2006 (Magnini et al., 2006)7 (Whittaker et al., 2006) 200 Preguntas inglés 68 (Bowden et al., 2006) 200 Preguntas inglés 199 (García-Cumbreres et al., 2006) 200 Preguntas inglés 19.5Cuadro 1: Evaluacióndel 17 %. Este dato revela y justifica la calidaddel método implementado en BRILI, yaque, como se mostró en la pasada edición delCLEF (Magnini et al., 2006), la precisión delas tareas bilingües inglés–castellano se establecidoen alrededor de un 50 % menos quela precisión obtenida por los sistemas de BRmonolingüe Castellana.Además, comparando con el resto de sistemasque en la actualidad desarrollan la tareabilingüe que en esta sección se discute,y que han participado en la pasada edicióndel CLEF 2006, el sistema BRILI obtienemejores resultados (BRILI ha quedado en laprimera posición en la tarea de BR bilingüeinglés–castellano en el CLEF 2006).5. Conclusiones y TrabajosFuturosEn este articulo, la estrategia de BR bilingüeinglés–castellano diseñada e implementadadentro del sistema BRILI ha sidodetallada y evaluada.El sistema BRILI reduce el uso de la TAcon el objetivo de evitar el efecto negativoque causan este tipo de estrategias en la precisiónglobal de los sistemas de BR. En el sistemaBRILI se introducen dos mejoras queintentan alcanzar dicho objetivo: i) El sistemaconsidera más de una traducción por palabragracias a los diferentes synsets de cadapalabra que están referenciados por el móduloILI de EuroWordNet; ii) Al contrario quelos actuales sistemas de BR, el análisis de lapregunta se realiza en su lenguaje original,sin ningún tipo de traducción.Los experimentos realizados sobre los conjuntosde preguntas oficiales de las edicionesdel CLEF 2004, 2005 y 2006 justifican nuestraestrategia.En la actualidad se está diseñando e implementandola integración de un reconocedorde entidades con el objetivo de detectar yclasificar entidades para así poder establecerlas necesidades de traducción de las mismas.Por ejemplo, en la pregunta 059 del CLEF2006, What is Deep Blue?, la entidad “DeepBlue”no debería ser traducida.A su vez, se está incorporando conocimientomultilingüe de Wikipedia 3 con el objetivode traducir entidades nombradas y ampliarlas colecciones bilingües de organizacionesy lugares.BibliografíaAcebo, S., A. Ageno, S. Climent, J. Farreres,L. Padró, R. Placer, H. Rodriguez,M. Taulé, y J. Turno. 1994. MACO:Morphological Analyzer Corpus-Oriented.ESPRIT BRA-7315 Aquilex II, WorkingPaper 31.Bowden, M., M. Olteanu, P. Suriyentrakorn,J. Clark, y D. Moldovan. 2006. LCC’sPowerAnswer at QA@CLEF 2006. InWorkshop of Cross-Language EvaluationForum (CLEF), September.Ferrández, A., M. Palomar, y L. Moreno.1999. An Empirical Approach to Spanish3 http://www.wikipedia.org/32


Búsqueda de Respuestas Bilingüe basada en ILI, el sistema BRILIAnaphora Resolution. Machine Translation.Special Issue on Anaphora ResolutionIn Machine Translation, 14(3/4):191–216.Ferrández, S. y A. Ferrández. 2006. Crosslingualquestion answering using inter lingualindex module of eurowordnet. Advancesin Natural Language Processing.Research in Computing Science. ISSN:1665-9899, 18:177–182, February.Ferrández, S. y A. Ferrández. 2007. Thenegative effect of machine translation oncross–lingual question answering. Proceedingsof the CICLing 2007, LNCS 4394,páginas 494–505, February.Ferrández, S., S. Roger, A. Ferrández,A. Aguilar, y P. López-Moreno. 2006. Anew proposal of Word Sense Disambiguationfor nouns on a Question AnsweringSystem. Advances in Natural LanguageProcessing. Research in Computing Science.ISSN: 1665-9899, 18:83–92, February.García-Cumbreres, M.A., L.A. Ureña-López,F. Martínez-Santiago, y J.M. Perea-Ortega. 2006. BRUJA System. The Universityof Jaén at the Spanish task ofCLEFQA 2006. In Workshop of Cross-Language Evaluation Forum (CLEF),September.Gillard, L., L. Sitbon, E. Blaudez, P. Bellot,y M. El-Béze. 2006. TheLIA at QA@CLEF-2006. In Workshopof Cross-Language Evaluation Forum(CLEF), September.Llopis, F. y J.L. Vicedo. 2001. Ir-n, a passageretrieval system. In Workshop of Cross-Language Evaluation Forum (CLEF).Magnini, B., D. Giampiccolo, P. Forner,C. Ayache, V. Jijkoun, P. Osevona,A. Peñas, , P. Rocha, B. Sacaleanu, yR. Sutcliffe. 2006. Overview of the CLEF2006 Multilingual Question AnsweringTrack. In Workshop of Cross-LanguageEvaluation Forum (CLEF), September.Martínez, T., E. Noguera, R. Muñoz y F. Llopis.2005. Web track for CLEF2005 atALICANTE UNIVERSITY. In Workshopof Cross-Language Evaluation Forum(CLEF), September.Moldovan, D.I., M. Pasca, S.M. Harabagiu,y M. Surdeanu. 2003. Performance issuesand error analysis in an open-domainquestion answering system. ACM Trans.Inf. Syst, 21:133–154.Roger, S., S. Ferrández, A. Ferrández, J. Peral,F. Llopis, A. Aguilar, y D. Tomás.2005. AliQAn, Spanish QA System atCLEF-2005. In Workshop of Cross-Language Evaluation Forum (CLEF).Sacaleanu, B. y G. Neumann. 2006. Dfkiltat the clef 2006 multiple languagequestion answering track. In Workshopof Cross-Language Evaluation Forum(CLEF), September.Schmid, H. 1995. TreeTagger — a languageindependent part-of-speech tagger. Institutfur Maschinelle Sprachverarbeitung,Universitat Stuttgart.Sutcliffe, R.F.E., K. White, D. Slattery,I. Gabbay, y M. Mulcanhy. 2006. CrosslanguageFrench-English Question Answeringusing the DLT System at CLEF 2006.In Workshop of Cross-Language EvaluationForum (CLEF), September.Tomás, D., J.L Vicedo, E. Bisbal, y L. Moreno.2006. Experiments with LSA for PassageRe-Ranking in Quesion Answering.In Workshop of Cross-Language EvaluationForum (CLEF), September.Vossen, P. 1998. Introduction to eurowordnet.Computers and the Humanities,32:73–89.Whittaker, E.W.D., J.R. Novak, P. Chatain,P.R. Dixon, M.H. Heie, y S. Furui. 2006.CLEF2005 Question Answering Experimentsat Tokyo Institute of Technology.In Workshop of Cross-Language EvaluationForum (CLEF), September..33


Fusión de Respuestas enla Búsqueda de Respuestas MultilingüeRita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-PinedaLaboratorio de Tecnologías del Lenguaje, Depto. Ciencias Computacionales,Instituto Nacional de Astrofísica, Óptica y Electrónica, México.{rmaceves, mmontesg, villasen}@inaoep.mxResumen: El presente trabajo describe los principales retos de los sistemas de Búsqueda deRespuestas (BR) Multilingües. Concretamente se aborda el problema de la combinación ofusión de respuestas candidatas provenientes de búsquedas en colecciones en diferentesidiomas. Este trabajo compara diferentes técnicas de fusión, propuestas en otras áreas detratamiento multilingüe, a la problemática específica de la BR. A partir del análisis de losresultados se discuten las características esenciales que deberá considerar un método defusión orientado a la BR multilingüe.Palabras clave: Búsqueda de Respuestas Multilingüe, Fusión de respuestas, CLEF.Abstract: This paper describes the main challenges of multilingual question answering. Inparticular, it focuses on the problem of answer fusion, which concerns the combination ofanswers obtained from collections in different languages. Basically, it compares a set oftechniques for answer fusion, previously used in other multilingual tasks, in the problem ofmultilingual question answering. On the basis of the achieved results, we discuss theessential characteristics for an answer fusion method to be especially suited to the task ofmultilingual question answering.Keywords: Multilingual Question Answering, Answer Fusion, CLEF.1 IntroducciónLos sistemas de búsqueda de respuestas (BR)son aquellos que responden de manera concisaa preguntas concretas formuladas en lenguajenatural. Uno de los principales retos queafrontan en la actualidad estos sistemas es elmultilingüísmo, situación en la cual se deseaque el sistema de BR responda a preguntasformuladas en un idioma diferente al de lacolección de búsqueda. Bajo tal situación esposible distinguir dos tipos de sistemas de BR:los sistemas translingües y los multilingües. Unsistema translingüe es aquel donde la colecciónde búsqueda está en un idioma diferente al de lapregunta. Y un sistema multilingüe realiza labúsqueda de la respuesta en dos o máscolecciones, todas ellas en idiomas diferentes.Cada uno de estos sistemas involucradiferentes retos. El presente trabajo aborda unode los desafíos que los sistemas BRmultilingües deben resolver.Un sistema de BR multilingüe puede servisto como un conjunto de sistemas de BRmonolingües trabajando de manera coordinada,donde cada sistema se dedica a la extracción derespuestas bajo una colección de búsqueda enparticular. Por supuesto, dos pasos más son devital importancia: la traducción de la pregunta alos diferentes idiomas de las colecciones debúsqueda; y la combinación (o fusión) de lasrespuestas entregadas por cada sistema de BRmonolingüe. La figura 1 muestra un esquemade un sistema de BR multilingüe.Durante la traducción de la pregunta adiferentes idiomas el principal problema esdisminuir el impacto negativo de la traducciónISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pinedaautomática. Una solución a este problemaconsiste en emplear 2 o más traductores paraposteriormente, a partir de diferentes criterios,elegir la mejor traducción, o crear una nuevareformulación. Detalles de estos métodospueden consultarse en (Aceves-Pérez et al., 07)Con las n traducciones, tantas comocolecciones de búsqueda existan, se realizacada una de las búsquedas monolingüescorrespondientes.Finalmente, con el conjunto de listasordenadas de respuestas candidatas,provenientes de los sistemas de BRmonolingües, se inicia el paso de fusión. Elobjetivo de este último paso, es la integraciónde las respuestas en una única lista ordenada.Esta integración deberá considerar tanto elorden de las respuestas en las listas, así como surepetida aparición en ellas. El objetivo centralde este trabajo es el análisis delcomportamiento de las técnicas de fusión,propuestas en otras áreas de tratamientomultilingüe, a la problemática específica de laBR. Para ello, se han aplicado algunas de lastécnicas de fusión básicas y se han analizado ycomparado sus resultados.El resto del artículo está organizado de lasiguiente manera. La sección 2 presenta eltrabajo relacionado tanto en sistemas de BRtranslingües y multilingües, así como en lastécnicas de fusión propuestas en laRecuperación de Información Multilingüe. Lasección 3 presenta brevemente las estrategiasmás prometedoras para la fusión de listas derespuestas. La sección 4 describe losexperimentos realizados y analiza los resultadosalcanzados. Finalmente, la sección 5 presentalas conclusiones de este trabajo.2 Trabajos relacionadosDado el gran interés en el desarrollo de lossistemas de BR, a partir del año 2003 el Cross-Language Evaluation Forum (CLEF) inicia laevaluación de sistemas monolingües ytranslingües de BR en idiomas europeos(Magnini et al., 03).En la actualidad podemos encontrar muchosejemplos de sistemas de BR translingües. Laarquitectura clásica de estos sistemas consta dedos componentes: un módulo de traducción dela pregunta y un sistema de BR monolingüe. Sufuncionamiento consiste en: (i) la pregunta –formulada en un lenguaje fuente– es traducidaal lenguaje de la colección de búsqueda –ellenguaje destino; y (ii) la traducción se entregaa un sistema de BR monolingüe afín al lenguajedestino. Dada la naturaleza de las preguntas,comúnmente no se realiza la traducción de larespuesta al lenguaje fuente.Los primeros sistemas translingüesimplementaban el módulo de traducciónutilizando directamente un traductor automático(Echihabi et al., 03; Jijkoun et al., 04; Perret,04). En estos primeros sistemas se pudo notarque el impacto del error en la traducción eraconsiderable. Para disminuir este impacto sepropusieron métodos alternos. Un primerenfoque consiste en asegurar la correctatraducción de los términos claves de lapregunta. Es el caso del trabajo de (Tanev et al.,2004) donde, apoyándose en diccionariosbilingües y EuroWordNet, genera su propiatraducción. Otro enfoque, consiste en utilizardos o más traductores. Esta idea se basa en lasuposición de que el acuerdo entre ellos tendrámayores probabilidades de ser correcto. Porejemplo, el método de (Laurent et al., 05)realiza una traducción triangulada usando alinglés como idioma pivote. Otro ejemplo es eltrabajo de (Sutcliffe et al., 05), el cual generauna traducción término-por-término combinadodos traductores diferentes y un diccionario.Finalmente, también encontramos otros trabajosque buscan medios pertinentes para resaltar elacuerdo entre los traductores. Por ejemplo,(Neuman & Sacaleanu, 05) construyen unabolsa de palabras expandida usando lostérminos de diferentes traducciones de lapregunta, así como sus sinónimos extraídos deEuroWordNet. Otro ejemplo, es el trabajo de(Aceves-Pérez, et al. 07) el cual reconstruyeuna nueva traducción a partir de las secuenciascomunes entre varios traductores.Respecto a los sistemas de BR multilingüeexiste, en nuestro conocimiento, únicamente eltrabajo de (García-Cumbreras et al., 06). Enéste se propone un sistema de BR basado en unsubsistema de Recuperación de InformaciónMultilingüe. Sin embargo, en la parteexperimental sólo se presentan resultados parael caso monolingüe del español.36


Fusión de Respuestas en la Búsqueda de Respuestas MultilingüePreguntaMódulo deTraducciónMódulo deTraducciónMódulo deTraducciónpreguntalenguaje xpreguntalenguaje ypreguntalenguaje zSistema deBRDoctoslenguaje xSistema deBRDoctoslenguaje ySistema deBRDoctoslenguaje zRespuestascandidataslenguaje xRespuestascandidataslenguaje yRespuestascandidataslenguaje zFusión derespuestasRespuestasFigura 1. Esquema general de un sistema de BR multilingüePor otro lado, el problema de la fusión delistas de respuestas –provenientes de diferentescolecciones en diferentes idiomas– no ha sidoabordado en el contexto de Búsqueda deRespuestas. Los trabajos más cercanos realizanbúsquedas en más de una colección, siempre enel mismo idioma, y aplican diferentes técnicaspara combinar (o fusionar) las respuestasprovenientes de cada colección. Por ejemplo,los trabajos de (Echihabi et al., 03, Jijkoun etal., 04) realizan búsquedas en secuencia sobrelas diferentes colecciones, donde la lista derespuestas calculada en el paso previo esconfirmada (o filtrada) por la búsquedasubsiguiente. (Chu-Carroll, 03) también realizabúsquedas en varias colecciones, todas ellas eninglés, una vez que obtiene las 5 respuestascandidatas con mayor calificación de cada unade las colecciones, las mezcla y reordena deacuerdo a su calificación, si existe algunarespuesta en más de una colección suscalificaciones se suman (véase la estrategiaCombSum en la siguiente sección). En (Sangoiy Mollá, 04) la búsqueda de respuestas serealiza sobre la Web recuperando extractos condiferentes motores de búsqueda. Estos extractosson pesados de acuerdo a la eficiencia del motorde búsqueda. Posteriormente se combinan, yrealizando un cálculo estadístico sobre lasentidades nombradas, se reordenan.Una conclusión que podemos extraer deestos métodos es que la búsqueda en diferentescolecciones permite mejorar el comportamientode los sistemas de BR.3 Fusión de respuestas candidatasLa idea central de este trabajo consiste enevaluar algunos de los métodos tradicionalesutilizados por los sistemas de Recuperación deInformación Multilingüe (CLIR por sus siglasen inglés) al colocarlos en el contexto de la BRmultilingüe. Cabe señalar que no se trata deproblemas idénticos, la problemática de lafusión de listas de documentos en CLIR tienepor objetivo crear una nueva lista dedocumentos donde los más relevantes, sinimportar su idioma, estén en las primerasposiciones de la lista. En la BR multilingüe elorden de las primeras posiciones es en extremoimportante. Existe una gran diferencia dar larespuesta correcta en la primera posición, adarla en la segunda o quinta posición. Acontinuación se describen brevemente lasestrategias de fusión tradicionales propuestasdentro de la CLIR.RoundRobin. Esta estrategia toma la respuestade más alta calificación de cada una de las listasy las coloca alternadamente en la nueva lista.Posteriormente, toma las segundas mejor37


Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-Pinedacalificadas y las coloca en la nueva lista. Estaoperación se repite sucesivamente hastaterminar las listas. En este caso, las respuestasduplicadas son descartadas.RSV (Raw Score Value). Esta estrategia tomaen cuenta las calificaciones de cada respuestadeterminadas en la fase anterior. Las listas derespuestas se mezclan en una única lista yreordenándose de acuerdo a dicha calificación.Cuando una respuesta aparece en más de unalista, se suman sus calificaciones.CombSum. Esta técnica de fusión, propuestapor (Lee, 97), puede considerarse como unacombinación entre RoundRobin y RSV. Estemétodo asigna una calificación de 21-i a las 21primeras respuestas de cada una de las listas –ordenadas descendentemente– siendo i laposición de la respuesta. Cualquier respuestadespués de la posición 21 se le asigna unacalificación de 0. De esta forma, la primerarespuesta (en todas las listas) queda con unacalificación de 20, la segunda con 19 y asísucesivamente. Finalmente, las listas semezclan y se reordenan atendiendo a la nuevacalificación. En caso de que una respuesta seencuentre en más de una lista sus calificacionesse suman.CombMNZ. Esta técnica, también propuestapor (Lee, 97), es una variante de la anterior. Eneste caso se asigna a cada respuesta unacalificación tal como se describe en CombSum,pero esta calificación es multiplicada por elnúmero de colecciones en la que se encontródicha respuesta.Como puede observarse estas estrategiasaprovechan de diferente forma la informaciónde las listas. En el caso de RoundRobin, laestrategia más simple, se da prioridad al ordenrelativo en las listas y no se aprovecha laaparición repetida de una respuesta. Por otrolado, esta estrategia también es sensible alorden en que se procesan las listas. Dando losmejores lugares en la lista final a las respuestasde la primera lista de respuestas procesada. Lasotras tres estrategias revisadas abordan estosinconvenientes buscando esquemas de pesadoque mejoren el ordenamiento final.4 Experimentos y ResultadosEn esta sección se muestran los resultados alevaluar las estrategias de fusión mencionadasen la sección anterior. A continuación sedescriben los diferentes recursos usados en losexperimentos.4.1 RecursosLas colecciones de búsqueda. Se usaron 3colecciones de búsqueda en tres idiomasdiferentes, todas ellas de notas periodísticas. Lacolección en español con 454,045 documentos(aprox. 1Gb.), la de francés con 129,806documentos (325 Mb), y la de italiano con157,558 documentos (350 Mb). Las coleccionescorresponden a las utilizadas en el CLEF 2005.El conjunto de pregunta y respuestas. Para laselección de las preguntas y sus respuestas setomó como base el corpus Multi-eight delCLEF. De este corpus se extrajeron preguntaspara cada uno de los tres idiomas. Se tuvoespecial cuidado en seleccionar preguntas cuyarespuesta estaba en las listas de respuestasotorgadas por los sistemas de BR monolingües.De esta forma se creó un conjunto de 170preguntas. Para poder evaluar el alcance de lasestrategias de fusión se identificó elsubconjunto de preguntas que tienen respuestaen una sola colección de búsqueda, así como elsubconjunto de preguntas cuya respuesta estápresente en más de una colección de búsqueda.Como es de suponer, es precisamente en estesegundo subconjunto de preguntas que lasestrategias de fusión tendrán un mayor impacto.La tabla 1 muestra la distribución de preguntascontestadas por colección de búsqueda.El sistema de BR monolingüe. El sistema deBR utilizado fue el sistema TOVA (Montes-y-Gómez et al., 05), un sistema basadoúnicamente en información léxica, lo que lohace prácticamente independiente del idioma.Este sistema obtuvo la mejor posición en elejercicio monolingüe en italiano, y la segundamejor posición en el ejercicio monolingüe enespañol del CLEF 2005.38


Fusión de Respuestas en la Búsqueda de Respuestas MultilingüeColecciónNo. PreguntasEspañol 37 (21%)Francés 21 (12%)Italiano 15 (9%)Español-Francés 20 (12%)Español-Italiano 25 (15%)Francés-Italiano 23 (14%)Español-Francés-Italiano 29 (17%)Tabla 1. Distribución de preguntas en funciónde la(s) colección(es) donde se encuentran susrespuestas.4.2 EvaluaciónEl criterio de evaluación de relevancia de lasrespuestas es el mismo que el propuesto en elCLEF. Dado que el objetivo de nuestro sistemade BR multilingüe es mejorar la precisión, setomó como punto de referencia (baseline) elcomportamiento del sistema de BR en suversión monolingüe para el español.La precisión es la cantidad de preguntasrespondidas correctamente en relación a lacantidad total de preguntas. Para observar conmayor claridad el comportamiento de lasdiferentes estrategias se midió la precisión auna, tres y cinco posiciones. Para el caso de treso cinco posiciones, la pregunta se consideracorrectamente respondida si la respuestaapropiada se encuentra entre las primeras tres ocinco respuestas candidatas. Cabe resaltar queel proceso de evaluación se realizó de maneramanual evitando errores debido a la necesidadde un apareo perfecto.4.3 ExperimentosLos experimentos realizados están orientados aevaluar el comportamiento de las técnicas defusión sobre diferentes listas de respuestascandidatas en diferentes idiomas.El primer paso consistió en obtener las listasde respuestas candidatas. Para ello se realizarontres corridas monolingües: una en español, otraen francés y una última en italiano. Cabeseñalar que las preguntas usadas en las 3corridas del sistema de BR fueron las mismaspero en diferentes idiomas. Las preguntas setomaron directamente del corpus para evitar elruido por la traducción automática de laspreguntas.El siguiente paso consistió en traducir laslistas de respuestas en francés e italiano alespañol, en este caso si se utilizó un traductorautomático (Systran). Finalmente, se hanaplicado las diferentes técnicas de fusión a lastres listas.En la tabla 2 se muestran los resultadosobtenidos con cada estrategia de fusión,distinguiendo la precisión calculada a laprimera, a la tercera y a la quinta posición. Amanera de referencia se incluyó la precisiónobtenida en el ejercicio monolingüe en español(última fila).Método 1a.Pos. 3a.Pos 5a.Pos.RSV 0.44 0.61 0.69RoundRobin 0.45 0.68 0.74CombSum 0.42 0.66 0.75CombMNZ 0.42 0.62 0.70Monolingüe 0.45 0.57 0.64Tabla 2. Precisión con los diferentes métodosde fusión de respuestas.Como puede observarse en la tabla 2, losmejores resultados se alcanzaron con el métodode RoundRobin, incluso superando losresultados del sistema monolingüe conprecisión a 3 y 5 posiciones. Sin embargo, esteresultado fue inesperado, ya que este método noconsidera la redundancia en las listas,característica que si aprovechan los demásmétodos. Por otro lado, es claro que estemétodo sí permite aprovechar lacomplementariedad entre las listas derespuestas, propiedad que los otros métodossopesan de manera más indirecta.Otra observación relevante es respecto alcomportamiento del método RSV. Este métodoreordena las respuestas en función de lapuntuación calculada en los pasos anteriores.Como puede advertirse el método RSV nopermite extraer más respuestas correctas de lasque se obtienen con el ejercicio monolingüe, deahí la importancia de tratar de hacercomparables las calificaciones de las repuestasde las diferentes listas, como lo demuestran losresultados de los métodos CombSum yCombMNZ.Por último, respecto a los resultadosalcanzados por CombSum y CombMNZ se notaun mejor comportamiento que el experimentomonolingüe con precisión a 3 y 5 posiciones.Una probable explicación del porqué no lomejoran en la precisión a la 1ª posición sería losproblemas durante la traducción automática delas respuestas de italiano y francés al español.39


Rita M. Aceves-Pérez, Manuel Montes-y-Gómez, Luis Villaseñor-PinedaHay que recordar que las listas de respuestasson de unas cuantas palabras y en muchasocasiones entidades nombradas, situación quecomplica su correcta traducción.Método 1a.Pos. 3a.Pos 5a.Pos.RSV 0.49 0.67 0.73RoundRobin 0.51 0.77 0.84CombSum 0.48 0.77 0.83CombMNZ 0.52 0.73 0.80Tabla 3. Precisión con los diferentesmétodos de fusión al considerar únicamente laspreguntas con respuesta en más de unacolección.Como se mencionó en la sección anterior, seidentificó el subconjunto de preguntas cuyasrespuestas podían encontrarse en más de unacolección. La tabla 3 muestra los resultadosalcanzados con los métodos de fusión sobre estesubconjunto de preguntas. Como era deesperarse se tienen mejores precisiones que altomar todas las preguntas. Los métodosCombSum y CombMNZ mejoran sucomportamiento, ya que estos métodosaprovechan la repetición y complementariedadde las listas de respuestas. Sin embargo, esnuevamente notorio el comportamiento delmétodo de RoundRobin.5 ConclusionesEn este trabajo se expusieron los principalesdesafíos en la construcción de sistemas de BRMultilingües y se abundó sobre el problema defusión de listas de respuestas en diferentesidiomas. Finalmente, se evaluaron las técnicasde fusión usadas comúnmente en los sistemasde Recuperación de Información Multilingües.Con estos experimentos se demostró lafactibilidad y utilidad de los sistemas de BRmultilingües, ya que se obtienen mejoresprecisiones a 3 y 5 posiciones. Sin embargo, esclaro que los métodos de fusión tradicionales nocolocan en la primera posición la respuestacorrecta. Creemos que esto se debefundamentalmente al error introducido por unamala traducción de las respuestas y, en menormedida, a la cantidad de respuestasconsideradas en el proceso de fusión. De ahí lanecesidad de proponer un nuevo método defusión especifico a esta problemática. Estemétodo deberá: (i) considerar lacomplementariedad de las listas, (ii) disminuirel impacto de una mala traducción (usando, porejemplo, varios traductores), e (iii) integrar enel esquema de fusión la calificación otorgadapor los sistemas de BR monolingües.AgradecimientosEste trabajo fue parcialmente financiado por elCONACYT bajo el proyecto 43990 y con labeca 184663. También agradecemos al CLEFpor los recursos proporcionados.BibliografíaAceves-Pérez R., Montes-y-Gómez M,Villaseñor-Pineda L, 2007. EnhancingCross-Language Question Answering byCombining Multiple Question Translations.Lecture Notes in Computer Science, Vol.4394, Springer 2007.Chu-Carroll J., Czuba K.,Prager A.J.,Ittycheriah A. 2003. In question answering,two heads are better than one. Proceedingsof the 2003 Conference of the NorthAmerican Chapter of the Association forComputational Linguistics on HumanLanguage Technology - Volume 1.Edmonton, Canada. 2003.Echihabi A., Oard D., Marcu D. y HermjakobU., 2003. Cross-language questionanswering at the USC Information SciencesInstitute. Lecture Notes in Computer ScienceVol. 3237, Springer 2004.García-Cumbreras M. A., Ureña-López L. A.,Martínez-Santiago F., Perea-Ortega J. M.2006. BRUJA System. The University ofJaén at the Spanish Task of CLEFQA 2006.In Working Notes of CLEF 2006, Alicante,España. 2006.Jijkoun V., Mishne G., Rijke M., Schlobach S.,Ahn D., Muller K., 2004. The University ofAmsterdam at QA@CLEF 2004. In WorkingNotes of CLEF 2004, Bath, UK, 2004.Laurent D., Séguela P., and Nègre S., 2005Cross lingual question answering usingQRISTAL for CLEF 2005. In WorkingNotes CLEF 2005. Vienna, Austria. 2005.Lee J., 1997. Analysis of Multiple EvidenceCombination, 20 th annual ACM SIGIRConference Proceedings, 1997.Magnini B., Romagnoli S., Vallin A., HerreraJ., Peñas A., Peinado V., Verdejo F. and40


Fusión de Respuestas en la Búsqueda de Respuestas MultilingüeRijke M., 2003. In Working Notes of CLEF2003, Trondheim, Norway, 2003.Montes-y-Gómez, M., Villaseñor-Pineda, L.,Pérez-Coutiño, M., Gómez-Soriano, J. M.,Sanchis-Arnal, E. & Rosso, P., 2005.INAOE-UPV Joint Participation in CLEF2005: Experiments in Monolingual QuestionAnswering. In Working Notes of CLEF2005, Vienna, Austria, 2005.Neumann G. and Sacaleanu B., 2005. DFKI’sLT-lab at the CLEF 2005 multiple languagequestion answering track. In Working NotesCLEF 2005, Vienna, Austria. 2005.Perret L., 2004. Question answering system forthe French. Lecture Notes in ComputerScience, Vol. 3491, 2005.Sangoi Pizzato L. A., and Molla-Aliod D.,2005. Extracting Exact Answers using aMeta Question Answering System. InProceedings of the Australasian LanguageTechnology Workshop 2005, Sydney,Australia, 2005.Sutcliffe R., Mulcahy M., Gabbay I.,O’Gorman A., White K., Slatter D., 2005.Cross-Language French-English QuestionAnswering using the DLT System at CLEF2005. In Working Notes CLEF 2005.Vienna, Austria. 2005.Tanev H, Negri M., Magnini B., andKouylekov M., 2004. The DIOGENEquestion answering system at CLEF-2004.In Working Notes of CLEF 2004, Bath UK.2004.41


QALL-ME: Question Answering Learning technologies in amultiLingual and multiModal Envinroment ∗Rubén Izquierdo, Oscar Ferrández,Sergio Ferrández, David TomásJosé Luis Vicedo, Patricio Martínez,y Armando SuárezDepartamento de Lenguajes y Sistemas InformáticosUniversidad de Alicante{ruben, ofe, sferrandez, dtomas, vicedo, patricio, armando}@dlsi.ua.esResumen: En este documento presentamos el proyecto QALL-ME, relacionado conlas tecnologías de los sistemas de información. El proyecto tiene un duración de 36meses y esta financiado por la Unión Europea y será llevado a cabo por 7 instituciones.El objetivo general es establecer una infraestructura compartida para laBúsqueda de Respuestas en un dominio abierto multilingüe y multimodal para dispositivosmóviles. Con las necesidades de información actuales de la sociedad, seatisba un mercado potencial enorme de los distintos objetivos que se persiguen enel QALL-ME.Palabras clave: Proyecto QALL-ME, Búsqueda Respuestas dominio abierto, multilingualidad, multimodalidad, dispositivos móvilesAbstract: In this paper, the QALL-ME project, related to the Information SystemsTechnologies, is introduced. The project is 36 months long, it is founded bythe European Union and it will carry out by 7 institutions. The main goal is to establisha shared infrastructure for multilingual and multimodal open domain QuestionAnswering for mobile phones. Taking into account the current information needs ofthe society, the different aims pursued by the project are expected to have a bigpotential market.Keywords: QALL-ME project, open domain Question Answering, multilinguality,multimodality, mobile devices1. Introducción“¿Dónde puedo comer paella esta noche?”.Responder a este tipo de preguntas se ha convertidorecientemente en una oportunidad denegocio real, con una gran serie de serviciosque van desde la tradicional atención al clientehasta una oferta cada vez mayor de asistenciabasadas en la web. El departamento deLenguajes y Sistemas Informáticos de la Universidadde Alicante participa en el proyectoeuropeo QALL-ME, junto a seis institucionesde otros tres países miembros de la Unión Europea(Italia, Alemania y Reino Unido), enel que se está desarrollando una infraestructurainformática a través del teléfono móvilpara que cualquier turista o ciudadano de∗Este trabajo ha sido llevado a cabo por el consorcioQALL-ME, el Sexto Programa Marco de Investigaciónde la Unión Europea (UE), referencia: FP6-IST-033860. Los autores agradecen a la UE su apoyoeconómico, así como a los integrantes del consorcio,por su fructífera colaboración. Para más informaciónsobre el consorcio QALL-ME visite la página web delproyecto, http://qallme.itc.it/uno de estos cuatro países pueda acceder instantáneamentea diferentes informaciones relacionadascon el sector servicios, ya sea unapelícula en el cine, un teatro o un restaurantede un tipo determinado de comidas.Actualmente, los portales de voz, serviciosque ofrecen acceso a información contenidaen webs a través de voz, están experimentandoun incremento exponencial en popularidad.Estos servicios suministran a los usuariosuna amplia gama de información: horarios,previsiones meteorológicas, informaciónde tráfico, eventos culturales y sociales, etc.Uno de los factores más valorados en la demandaes el dinamismo, es decir, los usuariosrequieren y solicitan información completamenteactualizada. Precisamente mantenertoda esta compleja información actualizada,junto a las tareas de recopilación de nueva información,es la tarea más cara y costosa delos portales de voz y de los sistema de informaciónbasados en web.El proyecto QALL-ME, es un proyectoISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Vicedo, Patricio Martínez, Armando Suárezde 36 meses de duración, financiado por laUnión Europea y que será llevado a cabopor un consorcio de siete instituciones, cuatrode ellas académicas, y las otras tres compañíasindustriales. El objetivo es estableceruna infraestructura compartida para laBúsqueda de Respuestas (Question Answering,QA) en dominio abierto multilingüe ymultimodal para dispositivos móviles. El proyectoexperimentará con el potencial del QAde dominio abierto y su evaluación en el contextode la búsqueda de información desdedispositivos móviles, un escenario multimodalque incluye el habla natural como entrada,y la integración de respuestas textuales,mapas, imágenes y videos cortos como salida.El dominio seleccionado está representadopor el conjunto de eventos locales de unaciudad, normalmente disponibles a través desitios web especializados, periódicos o publicacioneslocales.2. La Búsqueda de RespuestasEn 1999 se estableció un foro para laevaluación y comparación de sistemas deBúsqueda de Respuestas dentro de la seriede Conferencias TREC 1 , relacionadas con laRecuperación de Textos. La investigación ensistemas de Búsqueda de Respuesta se incrementocon la aparición de este foro, a pesarde que, en principio, éste solo estaba dirigidoa sistemas que trabajaran en inglés. En otraserie de conferencias, CLEF 2 , relacionadastambién con sistemas de Recuperación de Información,se extendió el ámbito a otras lenguas,incluido el español, y de nuevo se motivóla investigación en sistemas de Búsquedade Respuestas. La tarea de Búsqueda de Respuestasdentro de el foro CLEF empezó en2003, y desde entonces, el esfuerzo se ha centradoen añadir el tratamiento de nuevas lenguas,principalmente europeas, y añadir innovaciones(complejidad de preguntas, tratamientode lenguas distintas entre pregunta yrespuesta, etc)siempre sin perder la esenciaoriginal de la tarea.La Búsqueda de Respuestas en dominioabierto (open domain Question Answering)es la principal tecnología que hay detrás delproyecto. QA toma una pregunta formuladaen lenguaje natural y devuelve una respuestadesde una colección de fuentes de información(documentos o bases de datos). A dife-1 http://trec.nist.gov2 http://www.clef-campaign.orgrencia de las tecnologías de recuperación deinformación que sustentan algunos motoresde búsqueda como Yahoo o Google, QA nodevuelve un conjunto relevante de documentospara la consulta especificada, sino quedevuelve la respuesta concreta a la preguntarealizada. Ésta es una característica importantede los sistemas de QA, permitenel tratamiento de preguntas bien formuladasen lenguaje natural en lugar de secuenciasde palabras inconexas (Recuperación de Información)o plantillas fijas (Extracción deInformación). Se considera que la tecnologíaactual de QA está lo suficientemente maduracomo para pasar del simple tratamientode preguntas sobre hechos concretos (factualquestions), a otras más complejas conuna interacción más natural y conocimientomás profundo. Desde el punto de vistade aplicación, QA está reconocida como unade las tecnologías de mayor interés para laWeb Semántica(McGuinness, 2004), que requerirátanto del uso de aplicaciones de lenguajenatural como de técnicas de razonamientobasadas en la explotación intensivadel conocimiento.2.1. La Búsqueda de Respuestasen Dispositivos MóvilesComo hemos comentado, el propósito esdemostrar la viabilidad de las soluciones deQA propuestas a través de su integración enun escenario de aplicación concreto: Búsquedade Respuestas sobre información de eventoslocales desde dispositivos móviles. Dichaintegración seguirá cuatro direcciones relacionadasprincipalmente con la explotación de laWeb Semántica y las Tecnologías de InterfacesMultimodales para QA. En concreto, losobjetivos de integración corresponden con:Servicios Web para QATecnología de WrappersQA habladoQA multimodalSe diseñará una arquitectura de softwaredistribuido para optimizar las comunicacionesentre los módulos de software y alcanzarun balance computacional adecuado entrecliente y servidor. También se llevará a caboun desarrollo de herramientas (como porejemplo los Interfaces de Programación deAplicaciones) que posiblemente seguirán las44


QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Environmentrecomendaciones de Organizaciones Internacionales,como el W3C.3. Objetivos y Desarrollo delProyectoEl objetivo principal del proyecto QALL-ME es establecer una infraestructura compartidapara QA en dominio abierto y multilingüey multimodal desde dispositivos móviles.Podemos diferenciar entre objetivos tecnológicosy objetivos de investigación. Entrelos objetivos tecnológicos cabe resaltar:- QA multimodal, multilingüe y de dominioabierto. Se pretende desarrollarun sistema de QA que sea capaz de interactuarcon el usuario por medio dedistintos tipos de fuentes (texto, voz,imágenes) y haciendo uso de tecnologíasaplicables a cualquier tipo de dominio.En cuanto a la multilingüalidad, el proyectoQALL-ME desarrollará un estructuracomún de QA en varias lenguas. Paraello se integraran una única infraestructuraindependiente del lenguaje lasdistintas herramientas dependientes decada idioma que desarrollen cada uno delos grupos participantes.- QA que permita la interacción con elusuario y sensible al contexto. Paraser capaces de evaluar los módulos desarrolladosen un escenario real, y tomaral usuario como el foco de atención, sepretende desarrollar las funcionalidadesnecesarias para integrar la informacióncontextual (espacial y temporal) en elproceso de búsqueda de la respuesta. Sepretende utilizar este tipo de informacióntanto en el proceso de interpretaciónde la pregunta, como en la fase depresentación de la respuesta.- Tecnologías de aprendizaje automáticopara QA. El objetivo es implementarcomponentes de QA basados en algoritmosde aprendizaje automático mínimamentesupervisados que proporcionenresultados satisfactorios con una cantidadlimitada de datos de entrenamiento.Se usará este tipo de técnicas en las fasesde: análisis de la pregunta, reformulaciónde la pregunta y extracción y validaciónde la respuesta.El otro tipo de objetivos son los de investigación,entre éstos podemos encontrar varios.Por ejemplo, un estado del arte sobre losúltimos avances en la complejidad de las preguntasque maneja el sistema (como las preguntasdel tipo “¿cómo...?”; el desarrollo deuna arquitectura basada en web para la realizaciónde QA interlingua (con la pregunta enuna lengua y la respuesta en otra lengua diferente);la implementación de sistemas de QAen tiempo real para aplicaciones concretas; laintegración del contexto espacial y temporaltanto para la interpretación de la respuestacomo para la extracción de la misma; el desarrollode un marco robusto para la aplicaciónde algoritmos de aprendizaje automáticomínimamente supervisados en tareas deQA y la inclusión de tecnologías desarrolladasde reconocimiento automático del hablaen el marco de la Búsqueda de Respuestas endominio abierto.La infraestructura que se desea desarrollaren el QALL-ME para la realización de QAmultilingüe y multimodal, debe incluir éstasentre otras funcionalidades:Recopilar, y actualizar de forma automáticainformación relevante extraídadesde distintas fuentes de datos (estructuradosy no estructurados)Procesar automáticamente preguntascomplejas de forma multilingüe y teniendoen cuenta tanto el contexto espacialcomo el temporal en el que se realizanFacilitar el acceso multimodal al sistema,utilizando texto escrito o vozPresentar al usuario una informacióncorrecta, completa y concisa, extraídadesde distintas fuertes, con distintos formatosy lenguasCombinar distintos formatos en la presentaciónde información al usuario: textos,mapas, imágenes. . .La Figura 1 muestra los módulos principalesque componen la parte centra de la arquitecturadistribuida de QALL-ME.Todos los módulos se implementarán comoServicios Web utilizando lenguajes estándarpara la definición de Servicios. El planificadorcentral se encargará de la interpretación multilingüede las consultas. Este módulo recibela consulta como entrada, procesa la preguntaen el lenguaje en el que se formula y, deacuerdo a sus parámetros de contexto, dirigela búsqueda de la información requerida45


Rubén Izquierdo, Oscar Ferrández, Sergio Ferrández, David Tomás, José Luis Vicedo, Patricio Martínez, Armando SuárezFigura 1: Arquitectura principal QALL-MEhacia un Extractor de Respuestas local. Laextracción de la respuesta se realiza sobre diferentesrepresentaciones semánticas de la informaciónque dependen del tipo de la fuenteoriginal de datos desde la que se obtienela respuesta (si la fuente es texto plano, larepresentación semántica será un documentoanotado en XML; si la fuente es un sitio web,la representación semántica será una base dedatos construida por un wrapper). Finalmente,las respuestas se devuelven al PlanificadorCentral que determina cual es el mejor mediopara representar la información solicitada.El proyecto tiene una duración de 36 mesescomo hemos comentado y está organizadoen 11 módulos de trabajo:WP0: Dirección del proyectoWP1: Requerimientos de usuarioWP2: Diseño de la arquitectura del sistemaWP3: Interpretación multilingüe de lapreguntaWP4: Acceso a los datosWP5: Extracción multilingüe de la respuestaWP6: Interacción multimodalWP7: Integración del sistemaWP8: Demostración y exhibiciónWP9: EvaluaciónWP10: Diseminación y explotaciónEl proyecto se divide en 3 ciclos de desarrolloy pruebas. Cada ciclo incluye una fasede especificaciones funcionales y de usuario(WP1 y WP2), una fase de desarrollo(WP3. . . WP7) seguida de la realizaciónde demostraciones y experimentos de campo(WP8) y una fase de evaluación (WP9).El final de los 3 ciclos (meses 12, 24 y 36)se corresponden con las 3 principales etapasintermedias del proyecto que mostrarán el estadode desarrollo del QALL-ME.El módulo de diseminación (WP10), apartede las publicaciones académicas y en prensa,comprende el mantenimiento de la web delproyecto 3 y la organización de varios workshops,uno a la finalización del proyecto, y elWorkshop on Advances in Question Answering,dentro del programa de actividades delSIGIR de 2007 4 (por confirmar).4. Potencial de MercadoLa búsqueda de respuestas se ha convertidoen un área de investigación de rápidocrecimiento y con un gran potencial comercial.El análisis y proceso de preguntas formuladasen lenguaje natural en entornos basadosen Internet, sobre la base de una infraestructuradistribuida para aplicaciones deQA que emplee tecnología avanzada del lenguajede carácter multilingüe, permitirá laaparición de entornos orientados a la recuperación,evaluación y navegación de informacióntremendamente accesibles y adaptadosal usuario final. Las funcionalidades delos sistemas de QA, especialmente aquellosmétodos que soportan la comunicación interactivacon los usuarios, permitirán su integraciónen aplicaciones relacionadas con lacomunicación móvil, cuya principal forma deinteracción es el lenguaje natural.Se atisba un mercado potencial enormeen las diferentes direcciones perseguidas enel proyecto QALL-ME. Tal y como sugiereel crecimiento exponencial que los serviciosde suministro de información (call centers)están experimentando, se necesitará de serviciosde búsqueda y recuperación de informaciónde alta precisión que reduzcan de formadrástica el tiempo que un empleado necesitapara localizar y suministrar dicha informacióna los usuarios del servicio. En consecuencia,la habilidad de gestionar de formaautomática incluso una pequeña parte detodas estas solicitudes de información ofrece3 http://qallme.itc.it4 http://www.sigir2007.org46


QALL-ME: Question Answering Learning technologies in a multiLingual and multiModal Environmentnuevas oportunidades de negocio para aquellasempresas relacionadas con las telecomunicacionesy con la prestación de servicios deinformación web.5. El Consorcio QALL-MEEl consorcio QALL-ME está compuestopor siete instituciones de cuatro países miembrosde la Unión Europea: Italia, Reino Unido,España y Alemania). Cuatro de los participantesson instituciones académicas (ITCirst,University of Wolverhampton, Universityof Alicante, and DFKI) mientras quelas otras son empresas radicadas en Italia.Además, se ha conseguido que otras empresase instituciones se interesen por el proyectocomo, por ejemplo, LaNetro 5 que, amablemente,está proporcionando los datos sobre laprovincia de Alicante que servirán para desarrollary evaluar los sistemas.Universidad de AlicanteDepartamento de Lenguajes y SistemasInformáticosEspañahttp://www.ua.esContact Person: José Luis VicedoUniversity of WolverhamptonComputational Linguistics GroupUnited Kingdomhttp://www.wlv.ac.ukContact Person: Ruslan MitkovComdata S.p.A.Torino - Italyhttp://www.comdata.itContact Person: Giorgio SangalliUbiest S.p.A.Treviso - Italyhttp://www.ubiest.comContact Person: Nicola De MattiaWaycom S.r.l.Albisola Superiore, Savona - Italyhttp://www.waycom.itContact Person: Paolo RossiBibliografíaMcGuinness, Deborah L. 2004. Question answeringon the semantic web. IEEE IntelligentSystems, 19(1):82–85.ITC-irst, Project CoordinatorTCC-divisionPovo, Trento – Italyhttp://www.itc.it/irstProject Manager: Bernardo MagniniDFKILanguage Technology research lab Germanyhttp://www2.dfki.de/webContact Person: Guenter Neumann5 http://www.lanetro.com47


Web-based Selection of Optimal Translations of Short Queries ∗Paolo Rosso and Davide BuscaldiDSIC, Universidad Politécnica de ValenciaCamino de Vera, s/n Valencia (Spain){prosso,dbuscaldi}@dsic.upv.esMatteo IskraDISI, Università di GenovaVia Dodecaneso, 12 Genova (Italy)2002s040@educ.disi.unige.itResumen: En este artículo se presenta una técnica para la selección de la mejortraducción de una pregunta entre un conjunto de traducciones obtenidas desde diferentestraductores automáticos. La técnica está basada en el cálculo de la entropía dela pregunta respeto a la web. La presente técnica se puede utilizar en aplicacionesmultilingüe como la Búsqueda de Respuestas multilingüe.Palabras clave: Traducción Automática, Búsqueda de Respuestas Multilingüe,Minería de Datos en la WebAbstract: In this paper we present a technique for the selection of the best translationof a short query among a set of translation obtained from different translators.The technique is based on the calculation of the information entropy of the querywith respect to the web. This technique may be used in multilingual applicationssuch as the Cross-Lingual Question Answering.Keywords: Machine Translation, Multilingual Question Answering, Web Mining1 IntroductionNowadays, it is possible to find in the webmany Machine Translation (MT) tools thatare commonly used to translate small piecesof text. Our assumption is that these toolscan be used effectively in the Question Answering(QA) field, particularly for the Cross-Language task. If we consider QA as a specializedInformation Retrieval (IR) task, theanalogue of a user query in QA is a short,concise question. It has been demonstratedthat the translations generated by typicalweb-based MT tools are more precise forshort sentences than longer ones (Mellebeeket al., 2005). Therefore, the characteristicsof shortness and conciseness of QA querieslet us suppose that they can be translatedeffectively by a web MT tool, and subsequentlyimprove the results of existing Cross-Language QA systems.A great amount of the errors of multilingualQA systems are due to the translationphase. It has been observed that bad translationsaccount for 15% up to 50% of the totalnumber of errors, depending on the questiontype, in one of the best monolingual QA system(Laurent, Séguéla, y Nègre, 2006) thatparticipated in the latest CLEF 1 evaluationexercise.∗We would like to thank the TIN2006-15265-C06-04research project for partially supporting this work.1 http://www.clef-campaign.orgVarious methods have been developed recentlyin order to minimize the error introducedby MT in IR-related fields. In particular,the idea of combining different MT systemshas already been used succesfully for thecross-lingual Ad-Hoc retrieval task (Di Nunzioet al., 2005). The most common formof combination of different MT systems isthe selection of the best translation from aset of candidates (Callison-Burch y Flournoy,2001; Larosa et al., 2005), although therehave been also proposals for the combinationof fragments from different translations(Aceves-Pérez, Villaseñor-Pineda, y Montes,2006).The technique for the selection of the besttranslation that we present in this paper isbased on the calculation of the entropy ofthe translations with respect to the languagemodel in the web. It resembles a commonpractice among internet users, that is to exploitweb search engines in order to checkthe spelling of a word or the correctness ofa sequence of words; for instance, if someonehas a doubt whether “logic programming” ismore correct than “logical programming” ornot, he can search the web and make a choicedepending on the resulting page count. Thiscan be done over the pieces of the translationsin order to check their correctness against the“web English” language model.In the following section we introduce theISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Paolo Rosso, Davide Buscaldi, Matteo Iskraadopted technique, in Section 3 we describethe experiments carried out and present theobtained results.2 Description of the TechniqueGiven a translation X of a question q, letus define w as the sequence of n words thatcompose the translation:w = (w 1 , . . . , w n )A trigram chain is, therefore, defined as theset of trigrams T :T = {(w 1 , w 2 , w 3 ), (w 2 , w 3 , w 4 ), . . .. . . , (w n−2 , w n−1 , w n )}For instance, let us consider the followingSpanish translation of the English question“Whois the Chairman of the NorwegianNobel Committee?”: “Quién es el Presidentedel Comité Nobel noruego?”. Therefore,w =(“Quién”, “es”, “el”, “Presidente”,“del”, “Comité”, “Nobel”, “noruego”), andT = {(“Quién es el”), (“es el Presidente”),(“el Presidente del”), (“Presidentedel Comité”), (“del Comité Nobel”),(“Comité Nobel noruego”)}.The information entropy was introducedby Shannon (Shannon, 1948) and its generalformulation is:H(X) = −Kn∑p(i) log p(i) (1)i=0Where K is an arbitrary constant which dependson the problem, i is a fragment of amessage X of length n, and p(i) is the probabilityof the i-th fragment. In our case,the message is represented by the translation,and if we take into account trigrams, eachfragment i corresponds to the i-th trigram ofthe translationd t i .We decided to calculate the probability ofeach trigrams by means of web counts. Letus name c(x) the function that returns thenumber of pages that contain the text fragmentx in the web. Let us define the i-thtrigram t i = (w i , w i+1 , w i+2 ) and its root bigramas b i = (w i , w i+1 ). According to (Zhuy Rosenfeld, 2001), the probability p(t i ) canbe estimated as:p(t i ) = c(t i)c(b i )(2)If we substitute p(i) with Formula 2 in Formula1, we obtain:H(X) = −Kn∑i=0c(t i )c(b i ) (c(t i) − c(b i )) (3)Due to the fact that in the web usuallyc(b i ) >> c(t i ) , we used the logarithmic scalefor page counts, and used a linear normalizationfactor as K, obtaining the formula thatwe used to calculate the entropy of a translationX:H(X) = − 1 nn∑i=0log c(t i )log c(b i ) (log c(t i) − log c(b i ))(4)The selection of the best translation ismade on the basis of the H(X) calculated bymeans of Formula 4. Given M translations ofa question q, we pick the translation ¯m suchthat ¯m = arg max m∈M H(m).For instance, consider the following translationsof the example above:1. “Quién es el Presidente del Comité Nobelnoruego?”2. “Quién es el Presidente del Comiténoruego Nobel?”The trigram counts obtained from theweb (Google) are: The H(X) calculated forTrigramPagesQuién es el 271, 000es el Presidente 618, 000el Presidente del 8, 560, 000Presidente del Comité 1, 610, 000del Comité Nobel 468Comité Nobel noruego 328del Comité noruego 355Comité noruego Nobel 73Table 1: Web page counts for the trigrams ofthe two translations of the example.the first translation (the right one) is 2.454and 2.219 for the second one; therefore, themethod correctly selects the best translation.3 Experiments and ResultsThe experiments were carried out using theset of 200 questions of the cross-lingualEnglish-Spanish task of CLEF-2005 2 . In the2 http://clef-qa.itc.it/2005/50


Web-based Selection of Optimal Translations of Short QueriesCLEF exercises, questions are the same if thetarget collection is the same; therefore, theright (reference) translation of each questionwas obtained by recurring to the monolingualSpanish question set.3.1 MT SystemsThe MT systems used for the experimentswere Systran 3 , FreeTrans 4 , Linguatec5 , Promt 6 and Reverso 7 .The evaluation of the MT systems wascarried out by means of the BLEU (BiLingualEvaluation Understudy) (Papineni etal., 2001), a measure currently used for theevaluation of the MT systems at NIST 8 . Basically,the BLEU counts the n-grams sharedby the candidate translation and the referenceone. The degree of similarity returnedby the BLEU is a number comprised between0 (completely different) and 1 (perfectmatch). We calculated the average BLEUscore for each of the MT systems on the 200questions in the CLEF 2005 test set and overthe DISEQuA corpus, consisting in 450 questionsfrom CLEF 2003. Results are displayedin Table 2.System CLEF 2005 DISEQuASystran 0.346 0.282Freetrans 0.371 0.333Linguatec 0.391 0.311Promt 0.420 0.363Reverso 0.391 0.352Table 2: Average BLEU scores obtained byeach MT system over the 200 questions of theCLEF 2005 test set and the 450 questions ofthe DISEQuA corpus.As it can be noticed from Table 2, thePromt system proved to be the more effective.Another remark that can be done isthat the questions of the DISEQuA corpusseem to be more difficult to translate thanthe ones of the CLEF 2005.The results grouped by question category(Table 3) show that some MT systems translatecertain kinds of questions better thanother ones.3 http://babelfish.altavista.com4 http://www.freetranslation.com5 http://www.linguatec.de6 http://www.e-promt.com7 http://www.reverso.net8 http://www.nist.govCategory best BLEU Systemdate 0.327 Promtlocation 0.378 Promtmeasure 0.317 Reversoobject 0.237 FreeTransorganization 0.299 Reversoperson 0.513 Promtnot classified 0.308 LinguatecTable 3: Best average BLEU scores, groupedby question category, and system that obtainedthe best score.3.2 Evaluation of the Web-basedTranslation SelectionWe used three different search engines to calculatethe entropy of translations: Google 9 ,Yahoo 10 and Ask 11 . In order to compare thequality of the English of the Internet withthe English of a static document collection,we used also Lucene 12 over the collection ofdocuments used in the CLEF 2005 monolingualSpanish QA track.We calculated the average entropy, obtainedby means of Formula 4, for both theCLEF 2005 and DISEQuA test sets, usingthe above search engines to obtain the webcount c(x) for trigrams and bigrams. Resultsare shown in Table 4.S.Engine CLEF 2005 DISEQuAAsk 0.381 0.325Google 0.392 0.332Lucene 0.378 0.313Yahoo 0.355 0.344Manual 0.462 n.a.Table 4: Average BLEU score obtained withthe proposed selection technique, using thedifferent search engines for c(x) over the 200questions of the CLEF 2005 test set andthe 450 questions of the DISEQuA corpus.Manual: average entropy obtained by selectingat hand the best translation of each question.The “manual” heuristics can be consideredas the maximum that could have beenobtained if the entropy correctly helped to individuatethe right translation for each ques-9 http://www.google.com10 http://www.yahoo.com11 http://www.ask.com12 http://lucene.apache.org51


Paolo Rosso, Davide Buscaldi, Matteo Iskration. This is not the case, as we can observehow the manual selection obtains a 7% precisionabove the best result obtained with theweb-based selection. Nevertheless, the manualselection does not reach the 50% of thetranslations, indicating that the translationsof these questions is particularly problematic.We carried out an error analysis and discoveredthat in many cases the errors are due tothe presence of Named Entities(NEs), particularlyabbreviations and proper nouns. Inmany cases the NEs have to be translated(for instance “United Nations” is translatedas “ONU” in Spanish), in other cases thetranslation is wrong (for instance, the Italiancar manufacturer FIAT becomes “salsade carne”, “mandato” o “autorización” forsome of the MT tools).Notably, the best results obtained bymeans of the proposed technique are all inferiorto the Promt MT system, although withthe CLEF 2005 test set the web-based selectionobtains a better average BLEU scorethan all the remaining MT systems.4 Conclusions and Further WorkAlthough the best MT systems obtained betterresults than the web-based translation selection,some important conclusions can bedrawn: the use of the web does actuallyprove better than a static collection, thanksto the redundancy of the data. Another resultis that the selection of a search engine isimportant in order to obtain better results.We have observed that QA questions containmany Named Entities, and that MT toolsoften fail to translate properly these NEs.This can be addressed by recurring to specializeddictionary of abbreviations and propernouns. A further work may be the combinationof such a dictionary together with theselection technique improved by means of aninterpolated model for probability estimationas proposed by (Zhu y Rosenfeld, 2001) forthe modeling of language in the world wideweb.Callison-Burch, Chris y Raymond Flournoy.2001. A program for automatically selectingthe best output from multiple translationengines. En Proc. of the VIII MachineTranslation Summit, Santiago deCompostela, Spain.Di Nunzio, Giorgio, Nicola Ferro, Gareth J.F.Jones, y Carol Peters. 2005. Ad hoc trackoverview. En CLEF 2005 Working Notes,Vienna, Austria.Larosa, Sabatino, Manuel Montes y Gómez,Paolo Rosso, y Stefano Rovetta. 2005.Best Translation for an Italian-SpanishQuestion Answering System. En Proc. OfInformation Communication TechnologiesInt. Symposium (ICTIS), Tetuan, Morocco.Laurent, Dominique, Patrick Séguéla, y SophieNègre. 2006. Cross lingual questionanswering using qristal for clef 2006.En CLEF 2006 Working Notes, Alicante,Spain.Mellebeek, Bart, Anna Khasin, Josef VanGenabith, y Andy Way. 2005. Transbooster:Boosting the performance ofwide-coverage machine translation systems.En Proceedings of the EAMT 10thAnnual Conference, páginas 189–198, Budapest,Hungary.Papineni, K., S. Roukos, T. Ward, y J.W.Zhu. 2001. Bleu: a method for automaticevaluation of machine translation.Informe técnico, IBM Research Division,Thomas J. Watson Research Center.Shannon, Claude E. 1948. A mathematicaltheory of communication. Bell SystemsTechnical Journal, 27:379–423.Zhu, Xiaojin y Ronald Rosenfeld. 2001. Improvingtrigram language modeling withthe World Wide Web. Proc. of theIEEE International Conference on Acoustics,Speech, and Signal Processing.ReferencesAceves-Pérez, Rita M., Luis Villaseñor-Pineda, y Manuel Montes. 2006. UsingN-gram Models to Combine QueryTranslations in Cross-Language QuestionAnswering. Lecture Notes in ComputerScience, CiCLing 2006 Proceedings,3878:453–457.52


Técnicas léxico-sintácticas para el reconocimiento deImplicación Textual ∗Óscar Ferrández, Daniel Micol, Rafael Muñoz y Manuel PalomarDept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante)Carretera San Vicente s/n 03690 Alicante España{ofe, dmicol, rafael, mpalomar}@dlsi.ua.esResumen: Este artículo presenta dos aproximaciones para el reconocimiento delfenómeno de implicación textual, basadas principalmente en similitudes léxicas yárboles sintácticos. Dichas aproximaciones son fácilmente portables al reconocimientode implicaciones textuales en diferentes idiomas. Se presentan resultados individualespara cada aproximación y además, se propone una votación simple entreestos métodos y nuestro sistema previo (presentado en Second PASCAL RecognisingTextual Entailment), alcanzando una precisión del 63 %.Palabras clave: Implicación textual, similitud léxica, árboles sintácticosAbstract: This paper covers the recognition of textual entailment by means of differentapproaches based on lexical similarities and syntactic trees. These approachesare easily portable to other languages. We present the achieved results for eachindividual approach and we propose a simple voting strategy between these approachesand our previous system (presented in Second PASCAL Recognising TextualEntailment), obtaining an accuracy rate of 63 %.Keywords: Textual Entailment, lexical similarity, syntactic trees1. IntroducciónLa implicación textual define una relaciónentre dos expresiones en lenguaje natural.Estos pares de expresiones son definidoscomo texto e hipótesis, siendo el significadode la hipótesis el que debe ser inferidopor el del texto. Resulta un tarea muycompleja, e integra diferentes niveles de conocimientolingüístico (Bar-Haim, Szpecktor, yGlickman, 2005) como pueden ser el léxico,sintáctico y semántico. Además,en el Procesamientodel Lenguaje Natural (PLN) estefenómeno resulta extremadamente frecuente.Tal complejidad ha quedado patente en lasdos ediciones de PASCAL Recognising TextualEntailment (RTE) (Dagan, Glickman, yMagnini, 2005; Bar-Haim et al., 2006), lascuales han introducido un marco común parala evaluación de implicaciones textuales.Los sistemas actuales usan diferentes estrategiascombinando una gran variedad de herramientasPLN. Por ejemplo, es un hecho contrastadoque el uso de n-gramas y coincidenciasentre palabras (Pérez y Alfonseca, 2005),técnicas de tratamiento de árboles sintácticos∗Esta investigación ha sido parcialmente financiadabajo los proyectos QALL-ME, dentro del SextoPrograma Marco de Investigación de la Unión Europeacon referencia FP6-IST-033860, y CICyT númeroTIN2006-15265-C06-01.(Katrenko y Adriaans, 2006), inferencia lógica(Bos y Markert, 2006; Tatu et al., 2006)y algoritmos de aprendizaje automático parala clasificación (Bos y Markert, 2006; Adams,2006) resulta apropiado para afrontar esta tarea.Este artículo presenta dos métodos independientespara resolver implicaciones textuales,uno basado principalmente en similitudesléxicas y otro que utiliza básicamenteárboles sintácticos. Las estrategias de comparacióny medidas de similitud utilizadas,dotan a los métodos de una fácil portabilidada otros idiomas. Además, se presenta unaestrategia de votación entre ellos y nuestroanterior sistema presentado en (Ferrández etal., 2006). El objetivo de proponer métodosindependientes es afrontar la tarea desde diferentespuntos de vista (léxico y sintáctico)y así, desde entornos más delimitados, poderresolver mejor cada tipo de implicación. Unavez conseguido, seremos capaces de fusionarestos dos tipos de conocimiento de la maneramás adecuada posible.El resto del artículo está organizado enlas siguientes secciones. La sección 2 introducelos diferentes métodos. La evaluación ydiscusión de los resultados se muestran en lasección 3, y por último, las conclusiones ytrabajos futuros se detallan en la sección 4.ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar2. MétodosEsta sección muestra los métodos desarrollados.Se detalla la aproximación basada ensimilitudes léxicas junto con todas las medidasutilizadas, y además se especifica otrométodo que contempla similitudes sintácticosemánticasentre árboles de dependencias.2.1. Basado en medidas léxicasEl siguiente método (DLSITE-1 ) afrontala tarea basándose en la extracción de un conjuntode medidas léxicas que muestren la similitudexistente. A grandes rasgos, las medidasutilizadas se basan en las co-ocurrenciasentre las palabras del texto y la hipótesis yen el contexto en el que aparecen.El primer paso, anterior al cálculo de lasdiferentes medidas léxicas, es tokenizar, lematizar,analizar morfológicamente y obtenerlas stems de las palabras para cada uno delos pares de textos. Completado este proceso,creamos diferentes estructuras de datosque contengan el conjunto de palabras o tokens1 , lemas o stems. También creamos dosestructuras adicionales, una que comprendasólo palabras funcionales 2 y otra considerandosólo aquellas que por su carga semánticason más relevantes 3 . El siguiente paso es aplicarlas medidas entre cada par de estructuraspertenecientes a cada par texto-hipótesis. Lossiguientes párrafos detallan cada una de ellas.· Emparejamiento simple: consiste enuna técnica de matching simple entrelas palabras o tokens, lemas, stems opalabras funcionales, dependiendo de laestructura de datos utilizada, entre lahipótesis y el texto. Es inicializado a ceroy si un elemento de la hipótesis aparecetambién en el texto, se incrementaráen una unidad, en caso contrariono se producirá incremento. Al terminarlos emparejamientos, el peso obtenido esnormalizado dividiéndolo entre el númerode elementos que posee la hipótesis.La Ecuación 1 define esta medida.EMP simple =∑match(i)i∈H|H|(1)donde H es el conjunto que contiene loselementos de la hipótesis y match(i):⎧⎨1 si ∃ j ∈ T i=j,match(i) =⎩0 otro caso.siendo T el conjunto referente al texto.(2)· Distancia de Levenshtein: similar ala medida anterior, diferenciándose únicamenteen el cómputo de la funciónmatch(i), que en este caso es el siguiente:⎧1 si ∃j ∈ T Lv(i, j) = 0,⎪⎨ 0,9 si ∄j ∈ T Lv(i, j) = 0∧match(i) =∃k ∈ T Lv(i, k) = 1,1⎪⎩ arg máxj∈T Lv(i, j)otro caso.donde Lv(i, j) representa la distancia deLevenshtein entre las cadenas i y j. Elpeso destinado cuando Lv(i, j) = 1 hasido obtenido empíricamente y los costesde inserción, borrado y sustituciónfueron pesados con una unidad.· Emparejamiento de subsecuenciasconsecutivas: el objetivo de esta medidaes asignar un peso muy significativoa la aparición de subsecuencias consecutivasde palabras entre la hipótesis y eltexto. Para el desarrollo de esta medida,creamos todos los conjuntos posibles desubsecuencias consecutivas de la hipótesis,desde de tamaño dos (que contengandos palabras) hasta subsecuencias del tamañomáximo de la hipótesis. Una vezcreados estos conjuntos intentamos emparejarloscon sus análogos correspondientesal texto. Cada emparejamientocorrecto supondrá la adición de una unidaden el peso final. La suma de los pesosobtenidos de los emparejamientos entresubsecuencias de un determinado tamañoes normalizada por el número deconjuntos de subsecuencias consecutivasde la hipótesis creados para esa longitud,y a su vez estos pesos son acumulados ynormalizados por la tamaño de la hipótesismenos uno. Las siguientes ecuacionesdefinen la medida:(3)1 Se refiere a la palabra tal cual aparece en el texto.2 Consideramos palabras funcionales a los verbos,nombres, adjetivos, adverbios, números y fechas.3 En este caso solamente los verbos y nombres.LCSmatch =|H|∑f(SH i )i=2|H| − 1(4)54


Técnicas léxico-sintácticas para el reconocimiento de Implicación Textualdonde SH i contiene las subsecuencias dela hipótesis de tamaño i, y f(SH i ) serepresenta en la Ecuación 5.siendo∑match(j)j∈SH if(SH i ) =|H| − i + 1⎧⎨1 si ∃ k ∈ ST i k=j,match(i) =⎩0 otro caso.(5)(6)en este caso ST i representa el conjuntoque contiene las subsecuencias del textode tamaño i. La principal característicade esta medida consiste en considerarúnicamente subsecuencias consecutivas,asignando mayor relevancia cuanto mayortamaño posea la secuencia de tokens,lemas, stems o palabras funcionales consideradas.A su vez, las subsecuenciasconsecutivas de un mismo tamaño sontratadas con igual relevancia.· Tri-gramas: para esta medida, se crearondos conjuntos que contuvieran todoslos posibles tri-gramas de caracterescorrespondientes al texto y a la hipótesis.Creados estos conjuntos, todas lasocurrencias de tri-gramas que aparecenen ambos incrementan el peso acumuladofinal en una unidad. Por último, estepeso es normalizado por el número detri-gramas obtenidos de la hipótesis.· Las medidas ROUGE: las medidasROUGE han sido previamente utilizadaspara la evaluación automáticade resúmenes y traducción automática(Lin, 2004). Considerando que las medidasROUGE establecen diferentes situacionesde solapamiento entre textos obteniendoposibles similitudes léxicas entreellos, y que dentro de la tarea de implicacióntextual el impacto de métricascapaces de detectar y valorar dichas situacioneses muy aconsejable, decidimosintegrar dichas medidas a nuestro método.La implementación de estas medidasse llevó a cabo tal y como se muestraen (Lin, 2004). No obstante, en los siguientespárrafos se muestra una brevedescripción de las mismas y como hansido integradas en el sistema.· ROUGE-N: determina una coberturabasada en n-gramas entre la hipótesis yel texto (Ecuación 7).ROUGE-N =∑gram n∈H∑gram n∈HCount match (gram n )Count(gram n )(7)donde n indica el tamaño de los n-gramas (gram n ), Count match (gram n ) elmáximo número de n-gramas que aparecenen el texto y la hipótesis, yCount(gram n ) el número total de n-gramas que contiene la hipótesis. Los n-gramas son creados a partir de los tokens,stems, lemas y palabras funcionalesdel texto y la hipótesis. Además, losexperimentos realizados con el corpus dedesarrollo determinaron que los valorespara n más apropiados son dos y tres.· ROUGE-L: se basa en obtener la subsecuenciacomún más larga (the LongestCommon Subsequence, LCS 4 ) entre dostextos, LCS(T, H). Una vez calculada,la aplicamos basándonos en el cálculo dela medida F para estimar la similitud:LCS(T, H)R LCS =|T |LCS(T, H)P LCS = (8)|H|( ) 1 + β2 · R LCS · P LCSF LCS =R LCS + β 2 · P LCSdonde β = 1, y T y H son los conjuntosdel texto y la hipótesis, respectivamente.· ROUGE-W: similar a ROUGE-L conla diferencia de que utiliza una modificaciónde la LCS básica. Dicha modificaciónconsiste en memorizar los tamañosde los emparejamientos consecutivos yquedarse con el mayor, W LCS(T, H).Las ecuaciones basadas en la medida Fque la computan son las siguientes:4 La subsecuencia común más larga no tiene porqué ser una subsecuencia consecutiva.55


Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomar( )W LCS(T, H)R LCS = f −1 f (|T |)( )W LCS(T, H)P LCS = f −1 (9)f (|H|)( ) 1 + β2 · R LCS · P LCSF LCS =R LCS + β 2 · P LCSdonde f −1 es la inversa de f, que debecumplir que f(x + y) > f(x) + f(y) paratodos los enteros positivos 5 . En nuestrosexperimentos hemos elegido f(k) = k 2 ,f −1 (k) = k 1/2 y β = 1.· ROUGE-S: basada en skip-ngramas.Un skip-ngrama es una combinación den palabras en el orden en que aparecenen la frase, pero permitiendo saltos arbitrariosentre ellas. ROUGE-S mide losemparejamientos entre los skip-ngramasde la hipótesis y el texto, SKIP n (T, H),y como las anteriores se computa comosigue basándose en la medida F:R LCS = SKIP n(T, H)C (|T |, n)P LCS = SKIP n(T, H)(10)C (|H|, n)( ) 1 + β2 · R LCS · P LCSF LCS =R LCS + β 2 · P LCSdonde β = 1, C es una función combinatoriay n indica la longitud de losskip-gramas. Fueron desarrollados skipngramascon valores de n = 2 y n = 3,ya que valores de n más altos producíanskip-ngramas con poco o ningún sentido.Por último, todas estas medidas son interpretadascomo características para que un algoritmode aprendizaje automático sea capazde juzgar las relaciones de implicación entrecada par de textos. En nuestro caso, fue unamáquina de soporte vectorial (Support VectorMachine, SVM (Witten y Frank, 2005))la encargada de realizar esta labor.2.2. Basado en árboles sintácticosEl método propuesto en esta sección tienecomo objetivo utilizar básicamente informaciónsintáctica y de dependencias entrelas palabras de una frase. Dicho método5 Garantiza que emparejamientos consecutivosconsiguen mejores puntuaciones que no consecutivos.está compuesto por un conjunto de módulosque se ejecutan secuencialmente, abordandotareas de construcción de árboles, filtrado,detección de árboles embebidos y cálculo desimilitud entre ellos.Cada uno de los módulos del método propuesto(DLSITE-2 ) se describen en las siguientessubsecciones, numeradas según suorden de ejecución. A pesar de que la descripcióndel método se realiza mediante unejemplo utilizando un análisis de dependenciaspara el inglés, la portabilidad a otrosidiomas sería totalmente plausible (ver sección2.3).2.2.1. Construcción de árbolesConstruye los árboles de dependenciassintácticas correspondientes usando MINI-PAR (Lin, 1998). Los tokens de la frase, juntocon su respectiva información gramatical, sonalmacenados en una estructura de datos enmemoria que representa un árbol equivalenteal árbol de dependencias sintácticas.2.2.2. Filtrado de los árbolesConstruido el árbol, será conveniente descartardatos irrelevantes con el objetivo dereducir el tiempo de respuesta y el ruidode nuestro método. El Cuadro 1 muestralas categorías gramaticales relevantes, aquelloselementos cuya categoría no esté en dichalista serán eliminados. El árbol resultantetendrá la misma estructura que el original,pero no contendrá palabras de parada ni tokensirrelevantes. La lista de categorías ignoradasestá representada en el Cuadro 2.VerbosVerbo HaveVerbo BeBe utilizado como verbo enlazanteSustantivosNúmerosAdjetivosAdverbiosModificadores sustantivo a sustantivoCuadro 1: Categorías relevantes.2.2.3. Subárboles embebidosEl siguiente paso de nuestro sistema consisteen determinar si el árbol de la hipótesisestá embebido en el del texto. Para ello,primero vamos a definir el concepto de árbolembebido (Katrenko y Adriaans, 2006).Definición 1: Árbol embebido Un árbol56


Técnicas léxico-sintácticas para el reconocimiento de Implicación TextualDeterminanteshasta C 3 , N 2 es el número de nodos desde C 2Pre-determinanteshasta C 3 , y N 3 es el número de nodos desdePost-determinantesCCláusulas3 hasta la raíz (ver Figura 1).Frases inflexivasRootPreposiciones y frases preposicionalesEspecificadores de frases preposicionalesN3Verbos auxiliaresComplementosC3N1N2Cuadro 2: Categorías gramaticales ignoradas.C1C2T 1 = (V 1 , E 1 ) está embebido en otro T 2 = Figura 1: Distancia entre dos synsets.(V 2 , E 2 ) sii V 1 ⊆ V 2 y E 1 ⊆ E 2 .En otras palabras, un árbol, T 1 , está embebidodentro de otro, T 2 , si todos los nodosSi el valor de la similitud es mayor oigual que el umbral, el cual hemos establecidoempíricamente en 80 %, consideraremosy ramas de T 1 están presentes en T 2 .Tiene sentido reducir el nivel de exigenciaal token de la hipótesis candidato a tener elde dicha definición permitiendo la apariciónmismo significado que el token del texto, yde nodos intermedios en las ramas del textoprocederemos a comparar los nodos hijo delque no estén presentes en la correspondienteárbol de la hipótesis. Por otro lado, si dicharama de la hipótesis, lo que significa permitircomparaciones parciales. Una coinciden-similitud es menor que el umbral, procederemosa comparar los nodos hijos de dicha raízcia entre ambas ramas se producirá cuandodel árbol del texto con el actual nodo de latodos los nodos del primer árbol, denominadoθ 1 ∈ E 1 , estén presentes en el segundo, La comparación entre los árboles de de-hipótesis que estaba siendo analizado.denominado θ 2 ∈ E 2 , y su respectivo orden pendencias sintácticas finalizará cuando todoslos nodos de alguno de los dos árbolessea el mismo, permitiendo la posibilidad deaparición de nodos intermedios que no estén hayan sido procesados. Si nuestro sistema hapresentes en ambas ramas. Esto está descrito sido capaz de encontrar un nodo equivalenteen (Katrenko y Adriaans, 2006).para todos los pertenecientes a la hipótesis, elPara determinar si el árbol de la hipótesisestá embebido en el del texto, realizamos del texto y decidiremos que hay implicación.árbol correspondiente estará embebido en elun proceso de comparación desde la raíz hastalas hojas. Primero comparamos la raíz de siguiente módulo de nuestro método.En caso contrario, procederemos a ejecutar elambos árboles, y si coinciden, procedemos 2.2.4. Comparación de árbolesa comparar los hijos de dichos nodos. ParaFinalizada la detección de árboles embebidos,y si el resultado es negativo, proce-añadir mayor flexibilidad a nuestro sistema,no exigimos que el par de tokens sea exactamenteidéntico. En lugar de esto, establederemosa realizar una comparación entre elárbol del texto y el de la hipótesis. Consistecemos un umbral que representa el valor deen localizar pares de tokens en ambos árbolescuyos lemas sean exactamente iguales, in-similitud mínima entre ellos. Esto es una diferenciaentre nuestro método y el descritodependientemente de que estén en la mismaen (Katrenko y Adriaans, 2006). Dicha similitudse calcula utilizando la herramientaposición dentro del árbol o no.El peso asignado a un token que se encuentraen ambos árboles dependerá de laWordNet::Similarity (Pedersen, Patwardhan,y Michelizzi, 2004), y, concretamente, la medidade Wu-Palmer, tal como se define en lasimilitud con el perteneciente al árbol complementario,su profundidad en el árbol de laEcuación 11 (Wu y Palmer, 1994).hipótesis y la relevancia del token. El primerode estos factores se calcula utilizando la2N 3Sim(C 1 , C 2 ) =(11)N 1 + N 2 + 2N 3herramienta WordNet::Similarity. El segundodepende de un peso calculado empíricamenteque asigna menos importancia a undonde C 1 y C 2 son los synsets a calcular susimilitud, C 3 es su superconcepto común más nodo cuanta más profundo esté (definido encercano, N 1 es el número de nodos desde C 1 la Ecuación 12). Y el tercer factor asigna dife-57


Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel Palomarrente relevancia dependiendo de la categoríagramatical. Los valores de cada categoría gramaticalson también calculados empíricamentey se muestran en el Cuadro 3.Categoría gramatical PesoVerbos 1,0Sustantivos 0,75Números 0,75Be usado como verbo enlazante 0,7Adjetivos 0,5Adverbios 0,5Modificadores sustantivo a sustantivo0,5Verbo Have 0,3Verbo Be 0,3Cuadro 3: Pesos asignados a cada categoría.El último factor otorga diferente grado derelevancia dependiendo de la relación gramatical.El Cuadro 4 muestra los valores calculadosempíricamente para cada relación.Relación gramaticalPesoSujeto 1,0Sujeto superficial 1,0Objeto 1,0Segundo objeto en distransitivos 1,0Resto 0,5Cuadro 4: Pesos asignados a cada relación.Sean τ y λ los árboles de dependenciassintácticas del texto y la hipótesis, respectivamente.Asumimos que hemos encontradoun synset, β, presente en τ y en λ. Sea γ elpeso asignado a la categoría gramatical de β(definida en Cuadro 3), σ el peso de su relacióngramatical β (definido en Cuadro 4), µun valor calculado empíricamente que representala diferencia de peso entre niveles delárbol, y δ β la profundidad del nodo que contieneel synset β en λ. Definimos la funciónφ(β) como se refleja en la Ecuación 12.φ(β) = γ · σ · µ −δ β(12)El valor obtenido al calcular la expresiónde la Ecuación 12 representará la relevanciade un synset. Los experimentos realizados demuestranque el valor óptimo para µ es 1,1.Para un par (τ, λ), definimos el conjuntoξ como aquél que contiene todos los synsetspresentes en ambos árboles, esto es, ξ = τ ∩λ ∀α ∈ τ, β ∈ λ. Así pues, la tasa de similitudentre τ y λ será:ψ(τ, λ) = ∑ ν∈ξφ(ν) (13)Un requerimiento de la medida de similitudes no depender del tamaño de la hipótesis.Para ello, definimos la tasa de similitudnormalizada como muestra la Ecuación 14.∑φ(ν)ψ(τ, λ)ψ(τ, λ) = ∑φ(β) = ∑ν∈ξφ(β)β∈λβ∈λ(14)Una vez calculado el valor de la similitud,ψ(τ, λ), éste será el que determinará si se produceo no implicación. Será necesario establecerun umbral apropiado que representela tasa de similitud mínima. En nuestros experimentossobre el corpus de desarrollo esteumbral es establecido en 68.9 %, consiguiendoeste valor los mejores resultados.2.3. Aplicabilidad multilingüeUno de los objetivos de esta investigaciónes aplicar el sistema propuesto a diversas lenguase incluso detectar posibles implicacionesentre lenguas, es decir disponer del par textohipótesis,el texto en un idioma, la hipótesisen otro y detectar la implicación de significados.Para ello, tanto sólo sería necesarioadaptar una serie de herramientas específicaspara cada lengua.Respecto a los métodos y similitudes léxicassería necesario disponer de un analizadormorfológico, un lematizador y un stemmer,mientras que para detectar similitudessintácticas necesitaríamos un analizador dedependencias y un recurso léxico-semánticocomo WordNet. En cuanto a las estrategiasde construcción y comparación de medidasléxicas y árboles sintácticos se mantendríanidénticas. Debido a la amplia gama disponiblede recursos con estas características, laportabilidad de nuestro sistema a otras lenguasresultaría totalmente plausible. De hecho,y como objetivo para probar dicha portabilidad,tenemos previsto participar en latarea Answer Validation Exercise (Peñas etal., 2006) (AVE) dentro del marco de las conferenciasCLEF, consistente en detectar implicacionestextuales derivadas de validacionesde posibles respuestas obtenidas a partirde sistemas de Question Answering.58


Técnicas léxico-sintácticas para el reconocimiento de Implicación TextualSistemaPrecisión (corpus de test)overall IE IR QA SUM(Hickl et al., 2006) 0.7538 0.7300 0.7450 0.6950 0.8450(Tatu et al., 2006) 0.7375 0.7150 0.7400 0.7050 0.7900(Zanzotto et al., 2006) 0.6388 – – – –TEUA 0.6300 0.5300 0.6600 0.5800 0.7500(Adams, 2006) 0.6262 0.505 0.595 0.685 0.720DLSITE-1 0.6188 0.5300 0.6300 0.5550 0.7600(Bos y Markert, 2006) 0.6162 0.505 0.660 0.565 0.735DLSITE-2 0.6075 0.5050 0.6450 0.5950 0.6850...(Ferrández et al., 2006) 0.5563 0.4950 0.5800 0.6100 0.5400Cuadro 5: Comparativa de resultados sobre el corpus de test de RTE-2.3. Evaluación y resultadosPara evaluar nuestros métodos, el marcomás adecuado es el proporcionado en las dosediciones de PASCAL RTE Challenge. Enambas se proporciona corpus de desarrolloy test anotados manualmente manteniendouna distribución equitativa entre los pares negativosy positivos extraídos de aplicacionescomo Extracción de Información (EI), Recuperaciónde Información (RI), Búsquedas deRespuestas (BR) y Resúmenes automáticos(SUM). Para ajustar los métodos a la tarea,se utilizó los corpus de desarrollo de las dosediciones de RTE (RTE-1 y RTE-2), mientrasque la evaluación fue realizada con el corpusde test propuesto en la segunda edición.El Cuadro 5 muestra una comparativa conlos sistemas que participaron en RTE-2, ennuestro caso la votación (TEUA) hubiese obtenidoun cuarto puesto con una precisión de63 %. Para realizar la votación entre los métodosde las secciones previas y el sistema anteriorque poseíamos, se implementó una estrategiasimple estableciendo el resultado finalcon el máximo de votos producidos.Los resultados revelan que tanto losmétodos independientemente (DLSITE-1 yDLSITE-2 ) como la estrategia de votaciónconjunta resultan apropiados. El hecho detratar diferentes niveles lingüísticos de unamanera aislada, es un planteamiento másadecuado que el que seguíamos en nuestroanterior sistema utilizando diversas fuentesde conocimiento semántico. Por supuesto, losdiferentes conocimientos (léxico, sintáctico ysemántico) deben de ser utilizados de formainterrelacionada, pero teniendo un planteamientoprevio e independiente para cadauno de ellos será una labor menos tediosa ymucho más acertada.4. Conclusión y trabajos futurosEn este artículo se presentan dos métodospara la resolución de implicaciones textuales.Estos métodos se basan en afrontar latarea desde un entorno cerrado. El primerode ellos teniendo en cuenta únicamente similitudesléxicas y el segundo considerandobásicamente relaciones sintácticas. Las técnicasy medidas de similitud utilizas en ambosmétodos, permiten su portabilidad a otrosidiomas. El objetivo es desarrollar métodosrobustos capaces de resolver la tarea desdediferentes puntos de vista, para a posteriorifusionar estos conocimientos en un únicosistema. Además, aprovechando el desarrolloprevio del sistema presentado en (Ferrándezet al., 2006), se propone una estrategia devotación simple que mejore los resultados individualesde cada método.Como trabajos futuros, se plantea la fusiónde los dos métodos (léxico y sintáctico)de una manera colaborativa más que unasimple votación, por ejemplo de forma queinteractúen los diferentes niveles de análisisapoyándose entre sí para reconocer tiposde implicaciones que pudieran afrontarse medianteinformación léxica y sintáctica. Con elobjetivo de valorar la portabilidad de dichosmétodos, se pretende llevar a cabo una evaluaciónsobre implicaciones textuales en diferentesidiomas e incluso implicaciones entrelenguas. Por otro lado, se pretende crearotros métodos que tengan una mayor cargasemántica. Por ejemplo, la adición de sinónimosu otras relaciones semánticas, así comotécnicas que ayuden a representar conocimientocomo reconocedores de entidades yetiquetadores de roles, podrían resultar degran ayuda siempre que sean utilizadas de lamanera adecuada.59


Óscar Ferrández, Daniel Micol, Rafael Muñoz, Manuel PalomarBibliografíaAdams, Rod. 2006. Textual Entailment ThroughExtended Lexical Overlap. En Proceedingsof the Second PASCAL ChallengesWorkshop on Recognising Textual Entailment,páginas 128–133, Venice, Italy.Bar-Haim, R., I. Szpecktor, y O. Glickman.2005. Definition and analysis of intermediateentailment levels. En Proceedings ofthe ACL Workshop on Empirical Modelingof Semantic Equivalence and Entailment,páginas 55–60, Ann Arbor, Michigan.Bar-Haim, Roy, Ido Dagan, Bill Dolan, LisaFerro, Danilo Giampiccolo, BernardoMagnini, y Idan Szpektor. 2006. TheSecond PASCAL Recognising Textual EntailmentChallenge. Proceedings of the SecondPASCAL Challenges Workshop onRecognising Textual Entailment.Bos, Johan y Katja Markert. 2006. Whenlogical inference helps determining textualentailment (and when it doesn’t). En Proceedingsof the Second PASCAL ChallengesWorkshop on Recognising Textual Entailment,páginas 98–103, Venice, Italy.Dagan, Ido, Oren Glickman, y BernardoMagnini. 2005. The PASCAL RecognisingTextual Entailment Challenge. EnProceedings of the PASCAL ChallengesWorkshop on Recognising Textual Entailment,páginas 1–8, Southampton, UK.Ferrández, Oscar, Rafael M. Terol, RafaelMuñoz, Patricio Martínez-Barco, y ManuelPalomar. 2006. An approach basedon Logic Forms and WordNet relationshipsto Textual Entailment performance.En Proceedings of the Second PASCALChallenges Workshop on Recognising TextualEntailment, páginas 22–26, Venice,Italy.Hickl, Andrew, Jeremy Bensley, John Williams,Kirk Roberts, Bryan Rink, y YingShi. 2006. Recognizing Textual Entailmentwith LCC’s GROUNDHOG System.En Proceedings of the Second PASCALChallenges Workshop on Recognising TextualEntailment, páginas 80–85.Katrenko, Sophia y Pieter Adriaans. 2006.Using Maximal Embedded Syntactic Subtreesfor Textual Entailment Recognition.Proceedings of the Second PASCAL ChallengesWorkshop on Recognising TextualEntailment, páginas 33–37.Lin, Chin-Yew. 2004. ROUGE: A Packagefor Automatic Evaluation of Summaries.En Stan Szpakowicz Marie-Francine Moens, editor, Text SummarizationBranches Out: Proceedings of theACL-04 Workshop, páginas 74–81, Barcelona,Spain, July. Association for ComputationalLinguistics.Lin, Dekang. 1998. Dependency-based Evaluationof MINIPAR. Workshop on theEvaluation of Parsing Systems.Peñas, Anselmo, Álvaro Rodrigo, ValentínSama, y Felisa Verdejo. 2006. Overview ofthe Answer Validation Exercise 2006. EnWorking Notes for the CLEF 2006 Workshop,Alicante, Spain.Pedersen, Ted, Siddharth Patwardhan, y JasonMichelizzi. 2004. WordNet::Similarity- Measuring the Relatedness of Concepts.En Proceedings of the Nineteenth NationalConference on Artificial Intelligence(AAAI-04), San Jose, CA, July.Pérez, Diana y Enrique Alfonseca. 2005. Applicationof the Bleu algorithm for recognisingtextual entailments. En Proceedingsof the PASCAL Challenges Workshop onRecognising Textual Entailment, páginas9–12, Southampton, UK, April.Tatu, Marta, Brandon Iles, John Slavick,Adrian Novischi, y Dan Moldovan. 2006.COGEX at the Second Recognizing TextualEntailment Challenge. En Proceedingsof the Second PASCAL ChallengesWorkshop on Recognising Textual Entailment,páginas 104–109, Venice, Italy.Witten, Ian H. y Eibe Frank. 2005. Data Mining:Practical machine learning tools andtechniques. 2nd Edition, Morgan Kaufmann,San Francisco.Wu, Zhibiao y Martha Palmer. 1994. VerbSemantics and Lexical Selection. En Proceedingsof the 32nd Annual Meeting of theAssociations for Computational Linguistics,páginas 133–138, Las Cruces, NewMexico, United States of America.Zanzotto, F.M., A. Moschitti, M. Pennacchiotti,y M.T. Pazienza. 2006. Learningtextual entailment from examples. EnProceedings of the Second PASCAL ChallengesWorkshop on Recognising TextualEntailment, páginas 50–55, Venice, Italy.60


Alineamiento de Entidades con Nombre usando distancia léxica 1Rafael Borrego RoperoVíctor Jesús Díaz MadrigalDpto. Lenguajes y Sistemas Informáticos (Universidad de Sevilla){rborrego, vjdiaz }@lsi.us.esResumen: En este artículo se presenta un sistema para asistir en el etiquetado de entidades connombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticasusadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, seha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajescercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar losresultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir deuna secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma.Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden seradaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común.Palabras clave: Alineamiento, Etiquetado de entidades, Edit distance, Corpora bilingüeAbstract: In this article a system is presented to help in labelling named entities and meaningfulwords in bilingual parallel corpora. Besides the strategies used frequently in the alignment ofcorpora based on word frequency and position, it has been taken advantage of the highlexicographical similarity among words in nearby languages as Spanish and French to use thealgorithm Edit Distance. After studying the results of these techniques, a system of voting hasbeen defined that given a set of words in a language, an equivalent set in another language isproposed. As these techniques are not based on a previous knowledge of the languages, they canbe used to label any pair of languages that share a common branch.Keywords: Alignment, Name Entity Recognition, Edit distance, Bilingual corpora1 IntroducciónDado un corpora bilingüe, el alineamiento detextos [3] consiste en identificar qué partes - porejemplo: párrafos, frases o palabras - de uncorpus se corresponden con las del otro. En laliteratura se han propuesto diversas técnicaspara el alineamiento de corpora ya que es unatarea de gran utilidad en la asistencia a latraducción. En este caso, se propone usarheurísticas aplicadas en el alineamiento decorpora para relacionar entidades con nombre.El reconocimiento de entidades con nombre [5](NER, Named Entity Recognition) es una tareade especial relevancia para la compresión de untexto. El objetivo que persigue un sistema NERes la identificación y clasificación en un textode todos aquellos sintagmas que hacenreferencia a nombres de personas, lugares yorganizaciones. La tarea NER es crucial en laresolución de otros problemas más complejoscomo la extracción de información.En este artículo se mostrará cómo se puedenmejorar los resultados en el alineamiento deentidades con nombre y de palabras relevantesen un determinado dominio aprovechando elgran parecido que hay entre palabras de variosidiomas con un tronco común. El sistema hasido probado sobre un corpora bilingüe convarios centenares de frases en español y francés.Los documentos originales son noticias enfrancés de temas económicos que han sidotraducidas después al español por un experto.El sistema sigue un proceso similar al queharía una persona para comparar dos textos endistintos idiomas. Primero se procede a unasegmentación del texto en párrafos, frases ypalabras apoyándose en la información aportadapor distintos signos de puntuación. Después sonaplicadas heurísticas para determinar la relación1 Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03)ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Rafael Borrego Ropero, Víctor Jesús Díaz Madrigalexistente entre elementos lingüísticos. Trabajosanteriores [1] [2] demuestran el éxito obtenidoaplicando técnicas basadas en la posición en laque figura cada palabra junto con su frecuenciade aparición. El sistema propuesto se apoyaademás en la similitud de palabras medida enfunción del resultado de aplicar el algoritmoEdit Distance [4]. Aunque en un caso general lasimilitud de palabras no es un factor esencial,ésta si puede ser de gran utilidad cuandotratamos con corpora en dominios muyespecíficos o cuando tratamos de establecerrelaciones entre entidades con nombre. Larazón de esta mejora se debe a que dichaterminología tiene en numerosas ocasiones unmismo origen lingüístico o histórico.Dado que no se han usado conocimientosprevios del corpora ni de ninguno de los doslenguajes, esta técnica es susceptible de seraplicada a cualquier colección de documentosespañol-francés o a otros corpora bilingüe consimilares características.2 El córpora utilizadoPara los experimentos se ha usado un corporabilingüe español-francés obtenido a partir devarios artículos del diario francés Le Monde yLe Monde Economie. Los artículos fueron reetiquetadoscon XML mostrando primero laintroducción y a continuación los párrafos enlos dos idiomas.Tras eso, se procedió a dividir el corpora enfrases y palabras, indexando sus posiciones deinicio y fin en los párrafos. La división enfrases se hizo teniendo en cuenta la posición delos caracteres ‘.’. La división de las palabras sehizo a partir de la división anterior teniendo encuenta los espacios en blanco, signos deinterrogación, de exclamación, etc. Aunqueexisten casos en los que esta forma de procedergenera errores en la interpretación de palabras,estos errores fueron ignorados debido a que sunúmero era muy inferior en comparación con eltamaño del corpora.Tras analizar estos ficheros y ver que todostenían una estructura común, se comprobó quetodos los párrafos del corpora guardaban unacorrespondencia 1:1 (cada párrafo del corpus enfrancés se correspondía con un único párrafo enel corpus en español), lo cual es una granventaja ya que evitó que se tuviera que usaralgoritmos para relacionar párrafos.Posteriormente, se filtraron los corpus y sehizo una comparación del número de frases decada fichero para ver si seguían unacorrespondencia 1:1. Este tipo de proporciónnos indica cómo de fiel ha sido la traducción ycómo de cercana es la posición de cada palabraa la de su equivalente en el otro idioma. Secomprobó que de los 23 archivos iniciales, sólo18 contenían una correspondencia 1:1 en cuantoa frases, por lo que se descartaron los otroscinco. Tras ese primer filtrado, se dividió elcorpora en 2 conjuntos de ficheros: uno deentrenamiento, que incluía el 90% de las frases(362 en cada idioma) , y otro de test con el 10%restante (51 frases). Esta división se hizo tantopara hacer las pruebas finales (test) como paraajustar los parámetros del sistema(entrenamiento). Las tablas 1 y 2 muestran elnúmero de ficheros, párrafos y frases para cadauno de los corpus.Ficheros Párrafos FrasesCorpora 18 134 419Training 16 121 377Test 2 13 42Tabla 1. Datos del corpus en españolFicheros Párrafos FrasesCorpora 18 134 419Training 16 121 377Test 2 13 42Tabla 2. Datos del corpus en francésUna vez dividido el corpora, se calculó lafrecuencia de cada palabra en cada corpora (vertabla 3 y 4).Palabras Palabras únicasCorpora 9425 2509Training 8488 2346Test 937 443Tabla 3. Palabras en el corpus en españolPalabras Palabras únicasCorpora 9389 2496Training 8440 2328Test 949 455Tabla 4. Palabras en el corpus en francésAdemás, se hizo un estudio para ver si lasfrases contenían un número de palabras similaren ambos idiomas. Se vio que las frases delcorpus en español contenían de media sólo0.089 palabras más que las frases del corpus en62


Alineamiento de Entidades con Nombre usando distancia léxicafrancés. En aquellas frases del corpus enespañol que tenían más palabras que lacorrespondiente en el corpus en francés, había0.89 palabras más de media. En aquellas frasesdel corpus en francés que tenían más palabrasque la correspondiente en el corpus en españolhabía 0.80 palabras más de media. Por tanto, eltamaño de las frases era muy parecido.3 HeurísticasA continuación, se expondrán las heurísticasutilizadas para buscar la traducción de unapalabra en el otro idioma. Primero se indicará labasada en Edit Distance, a continuación labasada en análisis de frecuencia, y finalmente latécnica basada en la posición. Tras ello, secomentarán los resultados iniciales de probaréstas heurísticas, para finalmente mostrar elsistema de votación utilizado que combinadichas tres técnicas.3.1 Basada en cercanía léxicaEl algoritmo Edit Distance (también conocidocomo Levenshtein distance) permite averiguarel mínimo coste para transformar una cadena enotra, ya sea añadiendo o eliminando caracteres,o cambiando uno por otro. Esta medida serviráde apoyo para determinar el parecidolexicográfico de pares de palabras. Por ejemplo,para transformar la palabra “semana” en“semaine” se necesita eliminar el carácter ‘i’ de“semaine”, y cambiar el último carácter , “e”por “a”.El algoritmo Edit Distance establece unadistancia o una métrica de similitud entrepalabras. El valor final de esta distancia varíaen función del coste asociado a cada operaciónde edición (añadir, borrar, cambiar). En estecaso se ha aplicado un mismo coste a todas lasoperaciones de edición.La forma de empleo de esta heurística es lasiguiente: dada una palabra en uno de loscorpus, el sistema aplica el algoritmo EditDistance a todas las palabras del párrafoequivalente en el otro corpus. El resultado finalestá constituido por aquellas palabras conmayor similitud, es decir, con un valor dedistancia menor.Esta medida da muy buenos resultados parabuscar entidades como lugares, nombres depersonas o empresas, u organismos, ya quemuchas de ellas son traducidas de forma muysimilar o con pocas variaciones. Además, haynumerosas palabras como “semana” (“semaine”en francés) que presentan un alto parecido, porlo que la distancia entre una palabra y suequivalente es muy baja. No obstante, daproblemas al traducir palabras que no guardancorrespondencia en el otro idioma como“Estados Unidos” (“Etat-Units” en francés) yaque intenta una primera comparación de“Estados” con “Etat-Units”, y posteriormente“Unidos” con “Etat-Units”, fallando paraambas.3.2 Basada en análisis de frecuenciaPara realizar esta heurística, se debe calcularpara cada palabra w el número de veces queaparece w en todo el corpora y en cada fichero.Si la traducción tiene un alto parecido con eloriginal, el número de veces que aparece unapalabra en ambos idiomas es muy similar. Porello, cuando se selecciona una palabra en uncorpus, se buscan todas aquellas del párrafocorrespondiente en el otro corpus que tienenuna frecuencia de aparición parecida. Estaheurística da buenos resultados en palabras conun número medio de repeticiones. En palabrascon frecuencia baja la heurística devuelvedemasiadas palabras candidatas. En el caso depalabras con frecuencia alta aparece elfenómeno de las palabras huecas, como puedenser los determinantes o preposiciones, cuyatraducción da lugar a demasiadas soluciones.Con objeto de mejorar los resultados, estaheurística es sólo aplicable en el caso depalabras cuya frecuencia no está situada enestos dos casos extremos.3.3 Basada en análisis de posiciónEn la basada en la posición, tras seleccionar unapalabra en un corpus, se busca su posiciónrespecto al párrafo al que pertenece. Tras eso,se busca en el párrafo 2 equivalente la palabraque ocupa su posición. A esta palabra se leañaden las de su entorno (la anterior y lasiguiente). Esta medida da buenos resultadoscuando existe un gran parecido entre lasestructuras sintácticas de ambos idiomas ycuando la traducción ha sido relativamente fiel.Otro factor que influye en la bondad de estaheurística es que el tamaño de las frases en los2 Los resultados de esta heurística aplicando labúsqueda sobre la frase equivalente en lugar delpárrafo arrojó peores resultados, por lo que se optófinalmente buscar en el párrafo.63


Rafael Borrego Ropero, Víctor Jesús Díaz Madrigalcorpora sea proporcional (como sucede en estecaso, según se dijo anteriormente).3.4 Sistema de votaciónCada una de estas heurísticas devuelve unconjunto de palabras candidatas. Para mejorarlos resultados individuales de cada heurísticase definió un sistema de votación ponderada. Auna misma palabra se le aplican todas lasheurísticas de forma que se genera un conjunto(con posibles repeticiones) de palabrascandidatas. Finalmente, la palabra escogida esaquella con mayor multiplicidad (que ha sidoseleccionada por más heurísticas). La votaciónpuede ser simple o ponderada dependiendo deque el peso del voto de cada heurística sea igualo no. Con un sistema de votación se intentaescoger aquella palabra que más se ajusta deforma global a las tres característicaspropuestas: cercanía léxica, posición yfrecuencia. La votación ponderada permite darmayor realce a aquellas heurísticas cuyocomportamiento sea más fiable.Para ajustar el valor de los parámetros deponderación y para escoger la mejor heurísticapara cada heurística se hizo un análisis previoaplicando las distintas heurísticas sobre unapalabra aleatoria de cada párrafo del conjuntode entrenamiento. A partir de los resultadosobtenidos se obtuvieron los factores deponderación para decidir qué peso se le daba enla votación a las palabras devueltas por cadauna de las tres técnicas. Estos factores seobtuvieron calculando el porcentaje de aciertosde cada una.3.5 Resultados de las técnicasSe escogieron 60 palabras repartidas de formaaleatoria y uniforme entre todos los párrafos delcorpus. Se calcularon las traducciones de cadapalabra para cada una de las tres heurísticas ypara el sistema de votación, y se comprobó silas traducciones devueltas eran correctas o no.Los resultados obtenidos por las heurísticasjunto con el sistema de votación pueden verseen las tablas 5 y 6. En ellas se ve, para cadatécnica, el número total de palabras escogidas,cuántas de ellas fueron aciertos, y el porcentajede aciertos. La diferencia entre el número depalabras total se debe a que mientras que lavotación escoge como mucho un candidato, lasotras técnicas pueden devolver varias o inclusoninguna candidata .Se observa claramente como la heurísticaque usa el algoritmo Edit Distance es la que damejores resultados, y que el sistema de votaciónponderada eleva los resultados del 30% al 70%.Sin embargo, estos resultados deben sertomados con cautela, y por tanto, no deberíanser generalizados, ya que se ven notablementeinfluidos por dos razones: la fidelidad en latraducción y que los artículos contienen unconjunto importante de palabras similaresrelacionadas con el dominio económico.Edit Posición Frecuencia VotacióndistanceTotal 96 99 21 60Aciertos 27 18 3 42% aciertos 28,13% 18,18 % 14,29 % 70 %Tabla 5. Resultados heurísticas español afrancésEdit Posición Frecuencia VotacióndistanceTotal 98 99 80 62Aciertos 30 17 9 44% aciertos 30,61% 17,17% 11,25 % 70,97 %Tabla 6. Resultados heurísticas francés aespañol4 Búsqueda de entidadesEl sistema de votación anterior permite elalineamiento de palabras. Este sistema puedeser extendido para detectar grupos de palabrasque representan entidades como nombrescompuestos por varias palabras (como “PascalBlanqué”), o fechas (como “semaine du 8décembre”). El objetivo es alinear entidades notriviales donde el orden de las palabras cambieligeramente al traducirlas, o que contengan unnúmero diferente de palabras, como “mercadosde acciones”, que se traduce como “marchésactions”, que tiene una palabra menos.Dada una secuencia consecutiva de palabrasT=w 1 …w n de un párrafo en uno de los corpus,el método para buscar su alineamiento es elsiguiente: sea c i la palabra ofertada por elsistema de votación para traducir la palabra w i .De aquí se sigue que la traducción propuesta esun conjunto C de palabras {c 1 ,…,c n }. Ahorabien, ha de tenerse en cuenta que ese conjuntono tiene porqué estar ordenado por posición. Esdecir, si i


Alineamiento de Entidades con Nombre usando distancia léxicaPara obtener un segmento alineado contiguo setoman, de todas las candidatas, la que apareceprimera y la que aparece la última respecto a laposición en el texto. El segmento propuesto esel intervalo de todas las palabras contenidasentre ambas dos. De esta forma, si el usuarioselecciona un conjunto de palabras que setraduzca como “BNP Paribas AssetManagement” , el sistema elegiría “BNP” y“Management”, y a partir de ahí obtendría elresto de palabras que están entre esas dos.Dado que el algoritmo Edit Distancedevuelve todas las palabras que se parecen, yque la basada en la frecuencia en ocasionesdevuelve muchas palabras candidatas confrecuencia parecida, en numerosos casos seencuentra una palabra cuyo contenido coincidecon el buscado, pero en otra posición distintadel párrafo (por ejemplo, la palabra “de”aparece varias veces en muchos párrafos). Paraeliminar este efecto, se hace un análisis de laspalabras más frecuentes sin contenidosemántico (palabras huecas) de forma que albuscar las palabras del intervalo se ignoran.5 ResultadosPara ayudar a la anotación de entidades se hadesarrollado un sistema que permite al usuariocargar y visualizar los ficheros del corpora.Según se van cargando, el sistema se encarga deindexar los elementos necesarios y generar lasestadísticas. Una vez cargados todos, se muestraun árbol del directorio, y al ir pulsando en losdistintos elementos se muestra una ventana enla que se puede ver simultáneamente el texto enambos idiomas. Además, según se vaseleccionando el texto en un idioma, el sistemacolorea la frase equivalente en el otro idioma,baja el scroll para que muestre el textocoloreado, y se ofrece la traducción del textoseleccionado. Además, en cualquier momentoel usuario puede ver estadísticas sobre elcorpora y sobre cada fichero (número de frases,palabras, frecuencias...).En el caso de las pruebas para buscarentidades, se tuvo con la dificultad de que elcorpus no estaba previamente etiquetado. Poreste motivo, se ha trabajado con un conjunto deentidades y palabras que han parecidorelevantes del conjunto de ficheros de test. Lasentidades incluyen nombres de personas,empresas, lugares, y otras relacionadas coneconomía (materia sobre la que versaban todoslos archivos del corpora). En el caso de pasar deespañol a francés, se seleccionaron 147, y hubo110 aciertos, por lo que el porcentaje deaciertos es 74,83 %. En el caso de pasar defrancés a español, se seleccionaron 132, y hubo98 aciertos, por lo que el porcentaje de aciertoses 74,24 %. Por tanto, en ambos casos se haobtenido un porcentaje de éxito superior al 74%.Fichero 1 Fichero 2 TotalTotal 80 67 147Aciertos 56 54 110Porcentajeaciertos70 % 80,56 % 74,83 %Tabla 7 Resultados entidades español a francésFichero 1 Fichero 2 TotalTotal 68 64 132Aciertos 49 49 98Porcentajeaciertos72,05 % 76,56 % 74,24 %Tabla 8 Resultados entidades francés a español6 ConclusionesEste documento ha presentado una serie detécnicas para realizar alineamiento de palabrasen corpora bilingüe mostrando como puedemejorarse los resultados utilizando un algoritmode comparación de palabras en corpus deidiomas cercanos, respecto a otros que sólorealizan análisis de frecuencia o por posición.Tras ello, se han mostrado los resultados deaplicar con éxito estas técnicas a un corporabilingüe en español y francés, obteniendo un70% de éxito en la traducción por palabras, y un74% en la traducción de entidades. Finalmente,se ha indicado como el sistema desarrolladopermite encontrar no solo aquellas palabrasequivalentes en el otro idioma, sino que ademáspermite localizar entidades y palabrasrelevantes dentro de un contexto. Gracias aesto, constituye una útil herramienta paraetiquetar corpora bilingües, ya que facilita alusuario la búsqueda de traducciones, y lavisualización del contenido de dicho corpora.65


Rafael Borrego Ropero, Víctor Jesús Díaz Madrigal7 Líneas de trabajo futuroExisten numerosas líneas de trabajorelacionadas con las técnicas presentadas eneste artículo.En primer lugar, es necesario un estudio delos resultados con otros corpora, ya que losresultados actuales pueden estar influidos: porel tamaño del corpora (el utilizado en laspruebas es claramente insuficiente), por elcontexto (en este caso sólo se han usadoartículos de economía), y por el idioma (en estecaso se han contemplado dos idiomas cercanos,por lo que los resultados podrían cambiar alcomparar otros idiomas como español coninglés).Por otro lado, sería interesante comprobarqué influencia tendría en los resultados laincorporación de otras técnicas probabilísticasmás complejas como modelos de MáximaEntropía o Máquinas de Soporte Vectorial(SVM).8 BibliografíaP.F. Brown , J.C. Lai y R.L. Mercer. (1991)Aligning sentences in parallel corpora,Proceedings of the 29th annual meeting onAssociation for Computational Linguistics.pp 169-176W.A. Gale y K.W. Church. (1993) A programfor aligning sentences in bilingualcorpora. Computational Linguisticsarchive.Volume 19 , Issue 1 .Special issueon using large corpora. Páginas 75 – 102C.D. Manning y H. Schuetze. (2001).Statistical Alignment and MachineTranslation. En Foundaditons of StatisticalNatural Language Processsing, pp 462-494,MIT Press: Cambridge.W. J. Masek y M. S. Paterson (1980). A spaceeconomicalcomputing string edit distance.Journal of Computer Science, 20. pp 262—272.E.F. Tjong (2002): Introduction to theCoNLL'02 Shared Task: Language-Independent Named Entity Recognition.Proc. Of CoNLL-2002}. Taiwan pp 155--15866


Anotación semiautomática con papeles temáticos de los corpusCESS-ECEM. Antònia Martí AntonínCentre de Llenguatge i ComputacióUniversitat de Barcelonaamarti@ub.eduLluís MàrquezCentre de Recerca TALPUniversitat Politècnica de Catalunyalluism@lsi.upc.eduMariona Taulé DelorCentre de Llenguatge i ComputacióUniversitat de Barcelonamtaule@ub.eduManuel BertranCentre de Recerca TALPUniversitat Politècnica de Catalunyambertran@lsi.upc.eduResumen: En este artículo se presenta la metodología seguida en el proceso de anotaciónsemántica automática (estructura argumental y papeles temáticos de los predicados verbales) delcorpus CESS-ECE-CAT/ESP, así como la evaluación de los resultados obtenidos. A partir de unléxico verbal (1.482 verbos) con información sobre las funciones sintácticas de cada verbo y suproyección temático-argumental, se ha anotado automáticamente el treebank CESS-ECEaplicando un conjunto de reglas simples sobre los árboles sintácticos. Se ha conseguido anotarautomáticamente el 60% de los argumentos y papeles temáticos, con un error muy bajo (inferioral 2%). Este índice de calidad elevado permite usar la presente metodología para semiautomatizarel proceso de anotación semántica del corpus, con el consiguiente ahorro en tiempode anotación manual. Una vez completada la anotación este corpus podrá ser utilizado comofuente de información para los sistemas de anotación automática de papeles temáticos.Abstract: In this paper we present the methodology followed in the automatic semanticannotation (argument structure and thematic roles of the verbal predicates) of the CESS-ECE-CAT/ESP corpus. Building from a verbal lexicon (1,482 entries) with information about thesyntactic functions and their projection to arguments and thematic roles, we present a set ofsimple rules to automatically enrich syntactic trees with semantic information. This procedurepermits to automatically annotate 60% of the expected arguments and thematic roles with afairly low error rate (below 2%). Given the high quality of the obtained results, we claim thatthis methodology provides substantial savings in manual annotation effort and allows a semiautomaticapproach to corpus annotation. Once completed, the CESS-ECE corpus will permitresearchers to develop complete systems for automatic Semantic Role Labeling of Catalan andSpanish.1 IntroducciónLa anotación lingüística de corpus textuales degran volumen es una tarea que requiere un granesfuerzo en tiempo y recursos humanos.Cuando se pretende realizar el proceso de formarigurosa y la anotación lingüística implica eltratamiento de información compleja (sintaxiscompleta con funciones sintácticas, informaciónsemántica, etc.) el esfuerzo a realizar es, sicabe, aún mayor. Por este motivo, cualquierproceso que implique la automatización parcialde los procesos de anotación va ser de una granayuda. Entendiendo que el proceso automáticono puede sustituir en ningún caso el trabajomanual, sí puede representar una herramientade ayuda que permita ahorrar una gran cantidadde tiempo y dinero. Para que este ahorro seaefectivo, es imprescindible que la anotaciónautomática sea de una calidad suficiente comopara que el esfuerzo de revisión manual de laanotación automática sea netamente inferior alproceso de anotación desde cero.En este artículo se presenta la metodologíaseguida en el proceso de anotación semánticaautomática (estructura argumental y papelestemáticos) de los predicados verbales del corpusISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel BertranCESS-ECE-CAT/ESP 1 , en adelante simplementeCESS-ECE, así como la evaluación delos resultados obtenidos.Para la anotación semántica automática seha partido de dos fuentes de conocimiento: a)un léxico verbal para cada lengua elaboradomanualmente a partir de ambos sub-corpus,CESS-LEX-CAT y CESS-LEX-ESP (enadelante CESS-LEX), que contiene informaciónsintáctico-semántica; y b) un conjunto de reglasdesarrolladas específicamente para la anotaciónautomática, en las que se generalizan lascorrespondencias entre sintaxis y semánticaespecificadas en ambos léxicos.Los léxicos verbales se han obtenido a partirde una muestra de 100.000 palabras para cadalengua de CESS-ECE (a los que llamamoscorpus-origen) anotadas sintácticamente a nivelprofundo. Estos léxicos se han utilizado paraobtener las reglas de proyección sintácticosemántica,que se han usado para la anotaciónautomática tanto del corpus-origen como deotro subconjunto (85.000 palabras para elcastellano y 100.000 para el catalán) a los quellamamos corpus-prueba. El corpus-prueba nospermitirá evaluar el grado de generalización delconjunto de reglas. En concreto, en este trabajose analiza:• el grado de cobertura de la anotaciónautomática con CESS-LEX tanto en loscorpus-origen como en los corpus-prueba• la calidad de la anotación automática enlos corpus-origen y en los corpus-prueba apartir de la revisión manual efectuada• la validez del conjunto de reglas deproyección sintáctico-semánticaLa evaluación de los resultados permiteafirmar que en el caso de la anotación de laestructura argumental con papeles temáticos, elprocesamiento automático planteado es factibley satisfactorio, puesto que: 1) se consigueanotar el 58,4% de las ocurrencias del corpusorigen para el español y el 57,5% para elcatalán; 2) este porcentaje mejora en amboscasos (63,4% en el español y 62,7% en elcatalán) en los corpus-prueba (véase la sección5.1); 3) el grado de error en la anotaciónautomática se mantiene estable para ambaslenguas tanto en el corpus-origen como en el1 Este corpus ha sido elaborado gracias a los proyectosCESS-ECE (HUM-2004-21127-E) y Lang2World (TIN2006-15265-C06-06). Contiene dos partes de volumen ycontenido equivalentes, una en castellano (ESP) y la otraen catalán (CAT).corpus-prueba; 4) el grado de error esrealmente bajo (alrededor del 2%) en todos loscorpus. Cabe destacar que para que esteprocedimiento sea factible, es necesariodisponer de una anotación sintáctica previa decalidad, incluyendo el etiquetado de funcionessintácticas.Una vez finalizado el proceso automático, seha procedido a la compleción y a la revisiónmanual de la anotación semántica. Los corpusresultantes de dicho proceso son los que se hanutilizado en la tarea 9 de evaluación deSemEval-2007 para el catalán y el castellano 2 .El resto del artículo se estructura de lasiguiente forma. En la sección 2 se describenlas características básicas del corpus CESS-ECE. A continuación, en las secciones 3 y 4, sepresentan las diferentes fuentes de informaciónimplicadas en el proceso de anotaciónsemántica automática. En la sección 5 seanalizan los resultados obtenidos de una formacuantitativa y cualitativa. Finalmente, en lasección 6 se presentan las conclusionesprincipales de este trabajo.2 El corpus CESS-ECEEl objetivo principal del proyecto CESS-ECEes la construcción de un banco de árbolessintácticos (TreeBank) multilingüe (catalán,castellano y euskera) con anotación semántica 3 .En este artículo restringiremos nuestroestudio a los corpus del catalán y el castellano 4 ,de 500.000 palabras cada uno, procedentes dediversas fuentes, básicamente periodísticas(Véase Tabla 1). Dichos corpus se han anotadoa diferentes niveles de descripción lingüísticaque incluyen información morfológica,sintáctica y semántica. El proceso de anotaciónse ha llevado a cabo de manera automática,manual o semiautomática dependiendo de lainformación lingüística tratada (Véase Tabla 1).El proceso de anotación se ha llevado a cabode manera incremental, desde los niveles másbásicos de análisis, es decir empezando por eletiquetado morfosintáctico y el análisis sintácticosuperficial (chunking) realizados automáticamente,hasta llegar a los niveles máscomplejos, el análisis sintáctico profundo2 Multilevel Semantic Annotation of Catalan andSpanish, http://www.lsi.upc.edu/~nlp/semeval/msacs.html.3 Interfaz gráfica para consultar los corpus CESS-ECEhttp://www.lsi.upc.edu/~mbertran/cess-ece.4 El corpus del euskera se anota siguiendo otra metodologíay abarca 350.000 palabras.68


Anotación semiautomática con papeles temáticos de los corpus CESS-ECE(proceso manual) y el análisis semántico(proceso semiautomático). Este procedimientode anotación secuencial implica, en cada paso,la revisión manual del proceso anteriorgarantizando así la calidad y la consistenciainterna de los datos.Corpus Fuentes Anotación Procesomorfosintáctica AutomáticosintácticasuperficialAutomáticoCESS-ECE-CATCESS-ECE-ESPEFE(75.000)ACNsintáctica(225.000)profunda‘ElPapeles temáticosPeriódico’ 5(200.000) Sentidos nombresLexesp 6(85.000)EFE(225.000)‘ElPeriódico’(200.000)(WordNet)morfosintácticasintácticasuperficialsintácticaprofundaPapeles temáticosSentidos nombres(WordNet)Tabla 1: Niveles de anotación de los subcorpusCESS-ECE-CAT y CESS-ECE-ESPHasta el momento se encuentran yadisponibles las 500.000 palabras del corpusCESS-ECE anotado a nivel sintácticosuperficial y profundo (constituyentes yfunciones) para cada lengua y la anotación deun subconjunto de 185.000 palabras para elcastellano y 200.000 para el catalán coninformación semántica (estructura argumental,papeles temáticos, clases semánticas y sentidosde WordNet para los nombres más frecuentes).Estos dos últimos subconjuntos son los que seanalizan en este artículo. Cabe destacar que laanotación de la estructura argumental y lospapeles temáticos se está realizando siguiendoun modelo inspirado en el del corpus PropBankpara el inglés (Palmer et al., 2005). Por último,la anotación incremental de informaciónsintáctico-semántica sobre un mismo corpustoma su modelo del proyecto OntoNotes (Hovyet al., 2006).3 Fuentes de informaciónManualSemiautomáticoManualAutomáticoAutomáticoManualSemiautomáticoManualComo hemos dicho, la anotación semántica conestructura argumental y papeles temáticos 7 se5 El subconjunto de 200.000 palabras procedentes del‘El Periódico’ son las mismas noticias en catalán yespañol desde enero a diciembre de 2000.6 Lexesp es un corpus equilibrado del español de seismillones de palabras (Sebastián et al. 2000).ha realizado sobre una muestra de 185.000palabras para el castellano (6.013 oraciones) yde 200.000 para el catalán (6.422 oraciones), yel proceso de anotación se ha llevado a cabo demanera semiautomática (Taulé et al. 2005).Estos corpus se han dividido en dos subcorpus:el corpus-origen (100.000 palabras) y elcorpus-prueba (85.000 palabras para elcastellano y 100.000 para el catalán). Loscorpus-origen se han utilizado para la obtenciónde los léxicos verbales CESS-LEX-CAT yCESS-LEX-ESP, en los cuales se ha explicitadola relación entre funciones sintácticas yestructura argumental y temática de cadapredicado. Los corpus-prueba se han utilizadopara comprobar el grado de cobertura y decalidad de la anotación semántica automática. Acontinuación se presentan en más detalle lasdiferentes fuentes de información utilizadas endicho proceso.3.1 Información sintácticaSe parte de la base que la estructura argumentales el nivel de representación semántica máspróxima a la representación sintáctica de laoración, en tanto que refleja la manera en quelos argumentos semánticos se corresponden orelacionan con sus expresiones morfosintácticas.La estructura argumental expresa laaridad del verbo y permite establecer la relaciónsemántica entre el predicado y sus argumentos,es decir, los papeles temáticos. Es por ello queel análisis semántico parte de la informaciónsintáctica expresada en los corpus.A partir de la información sintácticacodificada en el corpus-origen se deriva deforma automática una versión inicial de losléxicos verbales CESS-LEX, donde para cadasentido de cada verbo se explicitan todos losesquemas sintácticos en los que aparece en elcorpus con sus correspondientes funciones.En nuestra aproximación el sujeto, el verbo,los complementos del verbo y los adjuntosdependen directamente del nodo oración (S).En la figura 1 se muestra un ejemplo deanálisis sintáctico profundo del corpus CESS-ECE-ESP, representando el árbol sintácticocomo una expresión parentizada. Las funcionessintácticas utilizadas en ambas lenguas son:sujeto (SUJ), objeto directo (CD) e indirecto(CI), complemento del régimen (CREG),complemento agente (CAG), predicativo7 En este artículo no se hace referencia al proceso deanotación con synsets de WordNet.69


M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertran(CPRED), atributo (ATR) y circunstanciales(CC, CCT, CCL) 8 . Estas funciones estánresaltadas en negrita en el árbol de la Figura 1.(S(sn-SUJ(espec.fp(da0fp0 Las el))(grup.nom.fp(ncfp000 reservas reserva)(sp(prep(sps00 en en))(sn(grup.nom.ms(ncms000 oro oro))))))(morfema.verbal-PASS(p0000000 se se))(grup.verb(vmip3p0 valoran valorar))(sp-CC(prep(sps00 en_base_aen_base_a))(sn(espec.mp(Z 300 300))(grup.nom.mp(Zm dólares dólar)))los que ocurre dicho verbo en el corpus(construcción activa y pasiva) con la correspondienterelación entre funciones sintácticas,posiciones argumentales y papeles temáticos.Como se puede observar, la posiciónargumental y el papel temático se mantienenmientras que su función sintáctica puede variar.En la construcción activa el argumento Paciente(PAT) tiene la función sintáctica de objetodirecto (CD) mientras que en la pasiva es elsujeto (SUJ). Finalmente, se incluye las frasesde ejemplo.valorar–01 synset: 00445269vELS4.2SUJ Arg0##AGTCD Arg1##PATCC ArgM##ADVEJ: "CCOO valoró la reducción del paro…"+PASIVASUJ Arg1##PATCAG Arg0#por#AGTCCEJ:ArgM##ADV"Las reservas en oro se valoranen_base_a 300_dólares estadounidenses…"Figura 1: Análisis sintáctico. Fragmento defrase ejemplo: “Las reservas en oro se valoranen 300 dólares…”3.2 Los léxicos verbales CESS-LEXA partir de la información sintáctica se creanmanualmente los léxicos CESS-LEX, dondepara cada sentido verbal se especifica: a) laclase semántica (Taulé et al., 2006); b) laproyección sintáctico-semántica, es decir lacorrespondencia entre funciones sintácticas,argumentos semánticos y papeles temáticos; c)las alternancias de diátesis en las que puedeocurrir y d) unas frases de ejemplo extraídas delpropio corpus. En la figura 2 se presenta laentrada del verbo ‘valorar’ en CESS-LEX.En la entrada léxica de la figura 2, se indicael lema (valorar), el número de sentido (01) 9 , laclase semántica (ELS4.2), correspondiente a laclase de verbos transitivos agentivos, que a suvez se corresponde con el tipo ontológico de lasactividades, y los dos esquemas sintácticos en8 Para más información y otros ejemplos se puedeconsultar la página web del proyecto CESS-ECE:http://www.lsi.upc.edu/~mbertran/cessece.9 El número de sentido se asociará a uno o más synsetsde una versión de WordNet 1.6.Figura 2: CESS-LEX-ESP: ‘valorar’Los léxicos verbales CESS-LEX proporcionaninformación de las distintas alternanciasdiatéticas que acepta un verbo (activa, pasiva,anticausativa e impersonal). Sólo la alternanciaactiva-pasiva tiene marcas morfosintácticas quepermiten la anotación automática de argumentosy papeles temáticos de manera directa.Sobre esta información se han elaboradoalgunas de las reglas de proyección.Los léxicos CESS-LEX contienen todos losverbos que aparecen en el corpus-origen, untotal de 1.482 para el castellano y 1.052 para elcatalán.4 Reglas de proyecciónPara el proceso automático de anotaciónsemántica se ha elaborado un conjunto de reglassimples que, individualmente, describen deforma inambigua las proyecciones seguras defunciones sintácticas a argumentos y papelestemáticos. Teniendo en cuenta la dificultad dela tarea, se ha tratado de conseguir el máximogrado de cobertura minimizando el error almáximo. Distinguimos dos tipos de reglas,generales (4.1) y específicas (4.2 y 4.3).70


Anotación semiautomática con papeles temáticos de los corpus CESS-ECE4.1 Reglas generalesIncluimos bajo esta denominación un conjuntode reglas asociadas a una determinada función opropiedad morfosintáctica. En el caso de lasfunciones, se asignan automáticamente lasposiciones argumentales correspondientes alcomplemento agente (CAG-Arg0-AGT),atributo (ATR-Arg2-ATR) y complementopredicativo (CPRED-Arg2-ATR) 10 . En cuanto alas posiciones adjuntas se etiquetan automáticamentelos complementos circunstanciales 11temporales (CCT-ArgM-TMP) y locativos(CCL-ArgM-LOC).La pasiva y la pasiva refleja son un ejemplode reglas asociadas a una propiedadmorfosintáctica. En este caso la regla tiene encuenta el tipo de verbo (es decir, si se trata delpredicado ‘ser’/’ésser’ seguido de participio), oel rasgo morfosintáctico que lleva asociado(morfema.verbal-PASS). En ambos casos, seetiqueta de manera automática el sujeto comoargumento Paciente (SUJ-Arg1-PAT) y elcomplemento agente como argumento Agente(CAG-Arg0-AGT), como se puede observar enla frase analizada de la figura 3. La asignaciónde dichos argumentos y papeles temáticos esindependiente del verbo. En el caso delejemplo, la asignación de la clase semántica D2(verbos transitivos agentivos) al predicado‘firmar’ se ha realizado también de maneraautomática pero a partir de la informaciónespecificada en el léxico verbal, CESS-LEX-ESP en este caso, es decir mediante laaplicación de las reglas del segundo tipo.4.2 Reglas específicas dependientes delos léxicos CESS-LEXIncluimos en esta sección las reglas específicasbasadas en la información descrita en losléxicos verbales CESS-LEX, es decir reglasdependientes de cada predicado.En el caso de verbos monosémicos lacorrespondencia entre función sintáctica y clasesemántica, argumentos y papeles temáticos serealiza de manera directa. En la figura 4 seejemplifica con el verbo ‘ser’ tratadomonosémicamente en el corpus del castellano.10 CPRED-Arg3-ORI en caso de estar introducidopor la preposición: “sps00 procedente_de”.11Son los únicos circunstanciales anotadosmanualmente.En la frase analizada en la figura 4, se ha(S(sn-SUJ-Arg1-PAT(espec.ms(da0ms0 El el))(grup.nom.ms(ncms000 acuerdo acuerdo)))(grup.verb-D2(vsif3s0 será ser)(vmp00sm firmado firmar))(sp-CAG-Arg0-AGT(prep(sps00 por por))(sn.co(snp(espec.fs(da0fs0 la el))(grup.nom.fs(ncfs000 presidentapresidenta)))etiquetado directamente el sujeto como unFigura 3: Reglas tipo I. Ejemplo de anotaciónautomática directa. Fragmento de frase ejemplo“El acuerdo será firmado por la presidenta…”(S(grup.verb-C3(vsip3p0 Son ser))(sa-ATR-Arg2-ATR(espec(rg tan tanto))(grup.a(aq0mp0 raros raro)))(sn-SUJ-Arg1-TEM(Fc , ,)(espec.mp(da0mp0 los el))(grup.nom.mp(ncmp000 hombreshombre)))Figura 4: Reglas tipo II. Ejemplo de anotaciónautomática directa. Frase ejemplo “Son tanraros, los hombres”Arg1-TEM (Tema), el atributo como un Arg2-ATR (Atributo) y la clase semántica C3, quecorresponde a verbos estativos transitivos.En el caso de verbos polisémicos laequivalencia entre información sintáctica ysemántica puede ser parcial, en el sentido deque sólo se etiqueta automáticamente aquellainformación que es inequívoca, es decir que noimplica ambigüedad. El resultado, por lo tanto,puede ser parcial, bien porque sólo se etiquetala posición argumental o el papel temático; bienporque sólo se etiqueta la combinatoria entreclase semántica y posición argumental o clasesemántica y papel temático. En el primer casose trata de predicados que, para sentidos o71


M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertranacepciones distintas, comparten la mismafunción y posición argumental pero los papelestemáticos asociados son diferentes y, por lotanto, la elección de uno u otro no es inmediata.La segunda posibilidad es el caso contrario, enlas distintas acepciones del predicado seproduce una coincidencia en la asignación depapeles temáticos pero no en la posiciónargumental de los mismos. En la figura 5 semuestra un ejemplo de anotación automáticaparcial.(S(sadv-CC-ArgM-TMP(grup.adv(rg Entonces entonces)))(sn.e-SUJ *0*)(grup.verb(vmii3s0 movía mover))(sn-CD-Arg1-PAT(espec.fs(da0fs0 la el))(grup.nom.fs(ncfs000 cabeza cabeza)))(sadv-CC(grup.adv(rg lentamenteFigura 5: Reglas tipo II. Ejemplo de anotaciónautomática parcial. Frase ejemplo “Entoncesmovía la cabeza lentamente”.El sujeto de ‘mover’ no se ha podido asignarde forma automática porque puede interpretarsedistintamente en función de la acepción que seconsidere, en este caso un Arg0-CAU, unArg0-AGT o un Arg1-TEM (Véase anexo 1para consultar la entrada de ‘mover’). Por lamisma razón tampoco ha sido posible laasignación de la clase semántica de maneraautomática ya que la regla no puede decidir sipertenece a la clase semántica A1, C1 o C2.4.3 Reglas específicas basadas en eltipo de adverbio y preposiciónEn este tercer conjunto consideramos las reglasbasadas en el tipo de adverbio o locuciónadverbial o prepositiva que aparecen en undeterminado constituyente. Por ejemplo, en lafigura 6 se da una muestra del tipo deinformación considerada.Como se puede ver, las reglas tienen encuenta el tipo de categoría morfosintáctica,‘RG’ (adverbio) o ‘SPS’ (locución prepositiva),la función de complemento circunstancial y ela_base_de SPS00 ArgM##ADVa_cambio_de SPS00 ArgM##ADVa_causa_de SPS00 ArgM##CAUa_comienzos_de SPS00 ArgM##TMPallí_delante RG ArgM##LOCallí_encima RG ArgM##LOCasí RG ArgM##MNRatrás RG ArgM##LOCaun RG ArgM##ADV...tipo concreto de adverbio o locución. Porejemplo, si en un constituyente, con la categoríaFigura 6: Lista de adverbios y locucionesmorfosintáctica ‘RG’ o ‘SPS’ y con funciónCC, aparece el adverbio ‘así’ o la locución‘a_causa_de’ se asignará de forma automáticael argumento y papel temático ArgM-MNR(manera) y ArgM-CAU (causa), respectivamente.Un subtipo de estas reglas es aquel que trataexpresiones temporales representadas en lacategoría morfosintáctica como W. Así, seanota como ArgM-TMP todo CC que contine(snd-CC-ArgM-TMP(espec.ms(da0ms0 el el))(grup.nom.ms(W 26_de_mayo [??:26/5/??:??.??])))(sn.e-SUJ-Arg1-TEM *0*)(grup.verb-C3(vmii3p0 equivalían equivaler))(sp-CREG-Arg2-ATR(prep(sps00 a a))(snn(espec.mp(Z 19.100 19100))(grup.nom.mp(ncmp000 millones millón)(sp(prep(sps00 de de))(grup.nom.mp(Zm dólares dólar)))))))un elemento del tipo W (véase figura 7):Figura 7: Reglas de tipo III. Expresionestemporales. Frase ejemplo: “El 26 de mayoequivalían a 19.100 millones de dólares.”4.4 Aplicación de las reglasTodas las reglas de proyección se han podidoimplementar de manera sencilla y eficiente,72


Anotación semiautomática con papeles temáticos de los corpus CESS-ECErequiriendo un esfuerzo en tiempo deprogramación moderado. De todas maneras,para disponer de un procesador automático quelas aplique es necesario decidir qué hacer en loscasos en que más de una regla sea aplicable.Heurísticamente, se ha decidido aplicar lasreglas en orden descendiente de generalidad, esdecir primero se aplican las reglas generales detipo I, en segundo lugar las de tipo III y,finalmente las de tipo II.5 Metodología y análisis de losresultadosEl proceso de aplicación automática de lasreglas de proyección se ha llevado a cabo enambos corpus. Recordemos que el procesoautomático se realiza separadamente sobre loscorpus-origen y los corpus-prueba a partir delas fuentes de conocimiento desarrolladas,reglas y léxicos, con el fin de evaluar la validezde dichas fuentes independientemente delcorpus a partir del cual se ha extraído lainformación. En el proceso automático seobtienen anotaciones totales con informaciónsobre el argumento y el papel temático o bienanotaciones parciales, es decir cuando sólo seha podido asociar a la función el argumento o elpapel temático. Los resultados obtenidos en elproceso automático de anotación se presentanen la sección 5.1. Incluimos un análisiscuantitativo de la cobertura de los léxicos y delas reglas en los corpus origen y de prueba, esdecir, el número de funciones sintácticas quehan recibido información argumental y temáticadel conjunto total de funciones.Por otro lado, se ha realizado la revisiónmanual para corregir los errores de la anotaciónautomática y completar las funciones que nohan recibido anotación semántica tanto de loscorpus-origen como del corpus-prueba. Para laanotación manual se utiliza un editor de árboles,TreeTrans (Cotton y Bird, 2000), adaptado parala anotación de argumentos y papeles temáticos.Una vez realizado el análisis cuantitativo de lacalidad de la anotación automática, se presentauna valoración cualitativa de los resultadosobtenidos (sección 5.2).5.1 Análisis cuantitativo de losresultadosLos léxicos CESS_LEX se han obtenido a partirde los verbos de los corpus-origen. Por lo tanto,se plantea un problema de cobertura cuando seanota automáticamente el corpus-prueba. Elléxico del castellano contiene un total de 1.482verbos de los cuales sólo 717 aparecen en elcorpus-prueba, lo que constituye el 64.1% delos 1.119 verbos del corpus de prueba. El léxicodel catalán contiene un total de 1.052 verbos delos cuales sólo 664 aparecen en el corpusprueba,lo que representa el 58,5% de los 1.134verbos del corpus-prueba.A pesar de que los léxicos tienen menorcobertura en los corpus-prueba, el tanto porciento de anotación recibida mantiene el mismonivel de cobertura que en los corpus-origen, loque indica que las reglas de proyecciónindependientes del léxico (tipos I y III)expresan generalizaciones que se dan tambiénpara los verbos nuevos de los corpus-prueba.En realidad, el porcentaje de cobertura esincluso un poco mejor en los corpus de pruebacomo veremos más adelante. Comentamos acontinuación los resultados de la anotación demanera analítica.El número total de funciones sintácticas queaparecen en los corpus es de 48.405 para elcastellano y 48.600 para el catalán. De éstas, enel corpus del castellano, 25.645 pertenecen alcorpus-origen y 22.760 al corpus-prueba; en elcaso del catalán, 24.005 pertenecen al corpusorigeny 24.665 al corpus-prueba. De todas lasfunciones, reciben anotación semántica el sujeto(SUJ), el complemento directo (CD), indirecto(CI), de régimen (CREG), el atributo (ATR), elcomplemento predicativo (CPRED) y loscircunstanciales (CC), que corresponden a untotal de 44.499 funciones por anotar encastellano (23.587 en corpus-origen y 20.912 encorpus-prueba) y 43.531 para el catalán (21.466en el corpus origen y 22.065 en el de prueba).No reciben información semántica losadjuntos oracionales (AO), el vocativo (VOC),los elementos textuales (ET) y las marcas deimpersonalidad, negación, pasiva e impersonal.De todas formas, esta limitación nos hacerenunciar solamente a 3.906 funcionessintácticas (un 8,07% del total de funciones) encastellano y a 5.139 (un 10,5 % del total) encatalán.En la tabla 2 se muestra de maneradesglosada por funciones la anotación semánticaresultante. También se incluye un desglosepor cada uno de los corpus (origen/prueba).Cada celda contiene tres números querepresentan el número de funciones etiquetadascon las reglas automáticas, el número de73


M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel BertranCORPUS: CESS-ECE-CATFunción C-origen C-prueba TotalSUJ 3.819/7.075/53,9% 3.996 / 7.517 / 53,1% 7.815 / 14.592 / 53,5%CD 4.099/5.055/81,08% 3.933 / 5.302 / 74,1% 8.032 / 10.357/ 77,5%CI 406/407/99,7% 429/ 429/ 100% 835/ 836 / 99,8%CREG 767/1.253/61,21% 646 / 1.240 / 52,0% 1.413 / 2.493 / 56,6%ATR 903/903/100% 1.111/ 1.111/ 100% 2.014 / 2.014 / 100%CPRED 390/390/100% 412 / 413 / 99,7% 802 / 803 / 99,8%CAG 297/297/100% 226/ 227/ 99.5% 523/ 524 / 99,8%CC 1.620/6.006/26,97% 3.089 / 5.826 / 53,0% 4.709 / 11.832 / 39,7%Total 12.301 / 21.386 / 57,5% 13.842 / 22.065 / 62,7% 26.143 / 43.451 / 60,1%CORPUS: CESS-ECE-CASTFunción C-origen C-prueba TotalSUJ 5.207 / 7.746 / 67.2% 4.631 / 6.967 / 66.5% 9.838 / 14.713 / 66,8%CD 3.438 / 4.838 / 71.1% 3.327 / 5.018 / 66.3% 6.765 / 9.856 / 68,6%CI 502 / 612 / 82.0% 261 / 521 / 50.1% 763 / 1.133 / 67,3%CREG 585 / 857 / 68.3% 470 / 869 / 54.1% 1.055 / 1.726 / 61.1%ATR 1.537 / 1.550 / 99.2% 955 / 963 / 99.2% 2.492 / 2.513 / 99,2%CPRED 361 / 361 / 100% 288 / 288 / 100% 649 / 649 / 100%CAG 188 / 189 / 99.5% 263 / 265 / 99.2% 451 / 454 / 99,3%CC 1.953 / 7.434 / 26.3% 3.062 / 6.021 / 50.9% 5.015 / 13.455 / 37,2%Total 13.771 / 23.587 / 58.4% 13.257 / 20912 / 63.4% 27.028 / 44.499 / 60,7%funciones a etiquetar y el porcentaje de cobertura, respectivamente.Tabla 2: Resultados de la anotación automática desglosada por sub-corpus, funciones e idiomaPodemos ver como del total de funcionessintácticas que pueden recibir anotaciónsemántica, 44.499 para el castellano y 43.531para el catalán, se han anotado automáticamenteun total de 27.028 y 26.143respectivamente, lo que corresponde a un60’7% para la primera lengua y a un 60,1%para la segunda: el 58’4% del corpus-origen yel 63’4% del corpus-prueba para el castellanoy el 57,5% y el 62,73% respectivamente paralos corpus del catalán. Como se puede observarla cobertura de anotación es superior en elcorpus de prueba debido fundamentalmente aletiquetado de los CC. Esto se explica porque,por razones de criterios de anotación de loscorpus, la anotación sintáctica del CC es másrica en el corpus de prueba que en el corpus deorigen 12 .En lo que se refiere a la cobertura, como sepuede observar en la tabla 2, las funcionessintácticas ATR, CAG, CPRED en ambaslenguas y el CI, en el caso del catalán, reciben12 En el corpus de prueba los complementoscircunstanciales de tiempo y lugar reciben unaetiqueta específica, CCT y CCL respectivamente,que facilita la asignación semántica.de manera casi unívoca una determinadaanotación semántica y su grado de coberturaalcanza casi el 100%. En el caso del CD y delCREG en ambas lenguas y del CI en el casodel castellano, el grado de cobertura de laanotación es inferior en el corpus-pruebadebido a que en este corpus la cobertura delléxico es inferior. La razón estriba en el hechode que la asignación de argumento y papeltemático, en estos casos, dependeexclusivamente de las reglas de tipo II(léxicas). La función sujeto recibe menosanotaciones semánticas en catalán (7.759) queen castellano (9.690) porque el verbo ser -elmás frecuente en el corpus- se ha tratado deforma monosémica en castellano, mientras queen catalán es polisémico.Las posiciones no argumentales, quecorresponden a los CC sintácticos, son las quedan peores resultados debido a la ampliatipología de argumentos (ArgM, Arg2, Arg3,Arg4) y papeles temáticos que pueden recibir(LOC, TMP, MNR, etc.).Finalmente, en la tabla 3 se muestra elnúmero total y el porcentaje de anotacionestotales y parciales. En la fila de los “Totales”se incluye el número total de funciones74


Anotación semiautomática con papeles temáticos de los corpus CESS-ECEetiquetadas y el porcentaje que representa estenúmero con respecto al total de anotacionesrealizadas automáticamente y al total defunciones sintácticas por anotar. Se puedeobservar como, en casi todos los casos, lamayoría de anotaciones son completas(argumento + papel temático). El alto númerode anotaciones parciales en el caso delcomplemento de régimen (CREG) se debe aque se ha decidido, de momento, no asignarlepapel temático por la problemática queentraña. Este tema está en fase de estudio y seresolverá en una fase posterior. Loscomplementos con mayor ambigüedad y, porlo tanto, con mayor número de anotacionesparciales, son el sujeto (SUJ) y elcomplemento directo (CD): la posiciónargumental es deducible, pero no así el papeltemático.CORPUS: CESS-ECE-CATFunción Arg+PT Arg PT TotalSUJ 7.759 52 4 7.815CD 7.854 178 --- 8.032CI 835 --- --- 835CREG 157 1.256 --- 1.413ATR 2.014 --- --- 2.014CPRED 802 --- --- 802CAG 523 --- --- 523CC 4.608 101 --- 4.709Total 24.552 1.58793,9% 6,0%56,5% 3,6%Tabla 3: Anotación total vs. parcial en elcorpus origen+prueba del catalán y castellano5.2 Análisis cualitativo de losresultados40,01%0,0%26.143100%60,1%CORPUS: CESS-ECE-CASTFunción Arg+PT Arg PT TotalSUJ 9.690 144 4 9.838CD 6.600 129 36 6.765CI 703 --- 60 763CREG 57 998 --- 1.055ATR 2.492 --- --- 2.492CPRED 649 --- --- 649CAG 451 --- --- 451CC 4.859 156 --- 5.015Total 25.501 1.427 10094,3% 5,3% 0,4%57,3% 3,2% 0,2%27.028100%60,7%Actualmente se ha completado la anotaciónsemántica manual del corpus-origen y se harevisado y validado el etiquetado obtenidoautomáticamente para ambas lenguas. Encuanto al corpus-prueba, se ha revisado ycompletado el 10% de las oraciones de amboscorpus. En este proceso de validación se hacomputado el número de errores para unsubconjunto de 500 funciones en cada corpusde ambas lenguas. El resultado obtenido es deun 2,1% de asignaciones incorrectas en elcorpus del castellano y de 1,9% en el corpusdel catalán, fundamentalmente en los CC.La precisión de la anotación automáticadepende básicamente de dos factores: lasreglas y el léxico. Las reglas generales sonaplicables a cualquier corpus y el resultadodebería tener un nivel de calidad equivalente.No ocurre lo mismo con las reglasdependientes de la información contenida en elléxico, ya que este está constituido sobre elcorpus de origen. Los problemas en este casose circunscriben a la cobertura de verbos ysentidos.De los resultados obtenidos en la revisiónmanual se puede concluir, por lo tanto, que lasreglas de tipo 1 y 3 dan resultadossatisfactorios y son aplicables a cualquier otrocorpus. Un análisis más profundo delcomplemento circunstancial y la proyeccióndel mismo en la anotación semántica,mejoraría los resultados de las reglas de tipo3. 13 Los errores detectados se refierenfundamentalmente a la asignación de papelestemáticos a los CC, debido a la ambigüedad yvariedad de los mismos y por la presencia desentidos en los corpus-prueba que no aparecenen los corpus origen.En cuanto a las reglas de tipo 2, en tantoque dependen del léxico, serían mejorablesaumentando la cobertura de los mismos y sitrataran las preposiciones que rigen los verbosen determinados complementos circunstanciales.A la vista de los resultados obtenidos tantoen la cobertura de anotación (una media el60,4%) como en la alta calidad de ésta(alrededor de un 98% de aciertos) es innegableque la metodología propuesta supone un ahorroimportante y resuelve en gran medida la tareade la anotación de corpus con argumentos ypapeles temáticos. Ello se debe, entre otrasrazones, a la base lingüística incorporada en las13 Esta ampliación se está ya aplicando para laanotación semántica automática del corpus CESS-ECE-CAT.75


M.Antònia Martí Antonín, Mariona Taulé Delor, Lluis Màrquez, Manuel Bertranreglas y a la calidad de los procesos deanotación previos (morfosintáctico y sintáctico).Para hacernos una idea, se hacuantificado que el coste de anotación manualdel 40% no cubierto por el proceso automáticojunto con la revisión manual del 100% deltexto de los dos idiomas es de 1.655 horaspersona. El coste de haber etiquetadomanualmente el 60% cubierto por las reglasautomáticas se estima comparable a estacantidad, mientras que el desarrollo y laimplementación de las reglas no ha superadolas 100 horas persona, dejando el ahorro netoen una cantidad superior a 1.500 horaspersona.6 ConclusionesEn este artículo se ha presentado lametodología seguida en la anotaciónautomática del corpus CESS-ECE conestructura argumental y papeles temáticos. Setrata de un proceso automático previo a laanotación manual completa. Las reglas que sehan aplicado, a la vista de los resultadoscualitativos obtenidos, tienen una precisiónpróxima al 100%, aunque se ha sacrificado lacobertura ya que sólo se anota un 60% delcorpus. No se trata en ningún caso de unsistema de anotación automática de rolestemáticos, sino de un pre-proceso automáticode ayuda en la anotación y revisión manualesde un corpus con esta información. Una vezcompletado, el corpus posibilitará, entre otrascosas, estudios lingüísticos empíricos ytambién la aplicación de técnicas deaprendizaje automático para desarrollarherramientas automáticas de análisis de losnuevos niveles semánticos incorporados.Cabe destacar, en primer lugar, que elgrado de cobertura alcanzado tanto en elcorpus-origen como en el corpus-prueba esprácticamente el mismo (algo superior en esteúltimo). En segundo lugar, la alta calidad de laanotación automática (98%). Finalmente,resulta de especial interés el conjunto de reglasque se ha elaborado tanto por su alta resolucióncomo por las generalizaciones lingüísticas querecogen.BibliografíaCotton, S. y S. Bird. An Integrated Framework forTreebanks and Multilayer annotations. EnProceedings of the 2nd InternationalConference on Language Resources andEvaluation, LREC-2000. Atenas, 2000.Hovy, E.H., M. Marcus, M. Palmer, S. Pradhan, L.Ramshaw, and R. Weischedel. OntoNotes:The 90% Solution. En Proceedings of theHuman Language Technology / NorthAmerican Association of ComputationalLinguistics conference (HLT-NAACL 2006).New York, NY, 2006.Palmer, M., D. Gildea, y P. Kingsbury. TheProposition Bank: An Annotated Corpus ofSemantic Roles, Computational Linguistics,31(1), 2005.Sebastián, N., M. A. Martí, M. F. Carreiras y F.Cuetos. LEXESP: Léxico Informatizado delEspañol, Ediciones de la Universidad deBarcelona, Barcelona, 2000.Taulé, M., J. Aparicio, J. Castellví, y M. A. Martí.Mapping syntactic functions into semanticroles. En Proceedings of the Fourth Workshopon Treebanks and Linguistic Theories (TLT2005). Universitat de Barcelona, Barcelona,2005.Taulé, M., M. A. Martí y J. Castellví. SemanticClasses in CESS-LEX: Semantic Annotation ofCESS-ECE. En Proceedings of the FifthWorkshop on Treebanks and LinguisticTheories (TLT-2006). Prague, Czech Republic,2006.Anexo 1: Entrada verbal ‘mover’Este anexo presenta la información de laentrada verbal ‘mover’ en CESS-LEX, quetiene tres sentidos diferenciados.mover–01 synset: 01249365vC1SUJ Arg1##TEMCC Arg4#hacia#DESCC ArgM##MNREJ: "que se movía lentamente"mover–02 synset: 01263706vC2SUJ Arg0##AGTCD Arg1##PATCC Arg2#por#LOCCC ArgMcon#ADVEJ: "las naves que movía el viento poraguas y mares con estimableeficiencia "mover–03 synset: 01133437vA1SUJ Arg0##CAUCREG Arg1#a#EJ: "resultó ser de los que mueven a lareflexión"76


Multilingualidad en una aplicación basada en el conocimientoGuadalupe Aguado de Cealupe@fi.upm.esJosé Ángel Ramos Gargantillajarg@fi.upm.esElena Montiel Ponsodaemontiel@delicias.dia.fi.upm.esOntology Engineering Group (OEG) – Universidad Politécnica de MadridCampus de Montegancedo – Boadilla del monte (Madrid)Resumen: La necesidad de dotar de multilingualidad a sistemas basados en el conocimientoplantea un nuevo reto a la investigación en Inteligencia Artificial. La mayoría de las estrategiasadoptadas en la actualidad para la representación de multilingualidad en bases de conocimiento hanoptado por soluciones ad hoc. Partiendo, pues, de la inexistencia de planteamientos teóricos quehayan analizado todas las posibles soluciones, en este artículo tratamos de cubrir este vacío con unanálisis detallado del fenómeno de la multilingualidad en las aplicaciones basadas en elconocimiento, en concreto en las ontologías. En la primera parte, recogemos brevemente lasestrategias de representación de multilingualidad adoptadas por recursos léxicos existentes. Acontinuación, nos centramos en los tres niveles que pueden soportar multilingualidad en lasaplicaciones ontológicas, a saber, la interfaz, la representación de conocimiento propiamente dichay los datos, y detallamos las principales posibilidades de representación. Asimismo se enumeran lasventajas y desventajas de cada representación, señalando las principales implicaciones técnicas desu implementación. Se dedica especial atención a la implantación de la multilingualidad en el nivelde representación del conocimiento por los numerosos aspectos a considerar según la posición queésta ocupe. Finalmente, se señala la posibilidad de hibridación de dichos modelos derepresentación.Palabras clave: multilingualidad, representación de multilingualidad en sistemas basados en elconocimiento, ontologías multilingües, recursos léxicos multilingüesAbstract: The incipient need to provide knowledge based systems with multilingual informationhas given rise to a new challenge in Artificial Intelligence. Current strategies used to representmultilinguality in knowledge bases have relied on ad hoc solutions. Starting from the premise thatthere are no theoretical approaches to representing multilinguality and their implications, we aim atfilling this gap by presenting a detailed analysis of the multilinguality phenomenon in knowledgebased applications, specifically in ontologies. The first part of this article deals with multilingualrepresentation strategies followed by relevant online multilingual lexical resources, applied in thedomain of ontologies. The second part is devoted to the analysis of the three identified ontologylevels that can support multilinguality, i.e., interface, knowledge representation as such, and data,in which we account for the main options of multilingual information representation in each level.After a detailed survey of the different options, we describe their main advantages anddisadvantages, highlighting the technical implications of their implementation, or possiblemetamodel modifications in the case a new language is added to the ontology. Special attention hasbeen given to multilingual representation at knowledge representation level. Finally, we include asection in which a combination of various multilingual representation models are proposed in whatwe have called hybrid systems.Keywords: multilinguality, multilingual representation in knowledge based systems, multilingualontologies, multilingual lexical resourcesISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla1 IntroducciónDesde que la Inteligencia Artificial trabaja consistemas basados en el conocimiento, losesfuerzos se han centrado en el desarrolloteórico de modelos y en la construcción tanto demotores de inferencia para explotarlos como deaplicaciones basadas en ellos.La aparición de las ontologías comosolución para la compartición de conocimientosconsensuados, y la consiguiente inserción deéstas dentro de la Web, dando origen a la WebSemántica, ha supuesto la aparición delproblema de la multilingualidad. El interés porlos temas de multilingualidad ha estadopresente en la comunidad científica desdediferentes perspectivas: búsqueda deinformación multilingüe, sistemas de búsquedade respuestas, traducción automática, etc.(Peñas y Gonzalo, 2004). Sin embargo, aunqueexisten aplicaciones de Web Semántica ysistemas de conocimiento multilingüe, engeneral, se han adoptado soluciones específicasy particulares dirigidas a una implementaciónconcreta y no como fruto de un estudioconceptual del problema.El Grupo de Ingeniería Ontológica (OEG)de la Universidad Politécnica de Madrid llevamás de diez años trabajando con ontologías ycon aplicaciones basadas en ellas, dentro yfuera de la Web Semántica. En este tiempo hatratado las aplicaciones y sistemas basados enontologías en todos sus aspectos teóricos yprácticos, cubriendo todas las actividades delciclo de vida de las ontologías. Por eso ahora,ante la creciente necesidad de tratar conelementos de conocimiento multilingües, haestudiado a fondo y de manera teórica laimplicación de la multilingualidad dentro de lasaplicaciones basadas en el conocimiento.En este artículo abordamos el análisis de losdistintos niveles en que la multilingualidad sepuede presentar dentro de estos sistemas, ydescribimos las posibles solucionesidentificadas. Asimismo, para que el estudio seaverdaderamente útil, se completa con laevaluación de las ventajas y desventajas de cadauna de las soluciones posibles en cada caso ynivel.Las figuras que aparecen en este artículotienen como misión que las argumentaciones secomprendan de una manera más intuitiva con elapoyo de una representación gráfica. Todasellas son ejemplos docentes pero no se han detomar como cánones puesto que no siguenestándares, ni contienen conocimientoconsensuado.2 Nociones previasAntes de entrar en materia propia del artículo,conviene tener presentes y claras una serie denociones que faciliten la comprensión.A la hora de representar un conocimientotenemos tres niveles: datos, modelo ymetamodelo. Los datos es el nivel inferior y sonlos individuos (o instancias) en sí. El modelo esel nivel intermedio y representa la estructura delos datos. El metamodelo es el nivel superior yrepresenta la estructura del modelo.Veamos un ejemplo de una ontología sobreanimales de ficción (información de dominio):Mickey es un individuo, Minnie es otroindividuo y Pluto es un tercer individuo.Estos tres individuos son el conjunto deinstancias Disney, los datos. Mickey yMinnie son instancias del concepto Ratónficticio, Pluto es instancia del conceptoPerro ficticio y hay una relación sonamigos entre Perro ficticio y Ratónficticio. Ratón ficticio y Perroficticio son conceptos de la ontologíaAnimales de ficción, el modelo.Concepto y Relación son los componentesde la representación de ontologías, elmetamodelo.Un mapping es una relación entre elementosde conjuntos diferentes. Estos conjuntos puedenser dos ontologías, una ontología y una base dedatos, etc.Siguiendo con el ejemplo anterior,imaginemos que tenemos otra ontología(información de dominio) Animalesreales, con un conjunto de instanciasllamado Zoo Madrid. En este conjunto deinstancias hay una instancia del conceptoRatón real que se llama Madroño. Existeun mapping que se llama tienen igualcolor y que relaciona Madroño y Mickey.Este mapping es el dato de información demappings. El modelo de mappings vienerepresentado por Elemento1, Elemento2 yRelación. El modelo de la información demappings está al mismo nivel que el modelo dela información de dominio (ontología).Por otra parte, partiendo de las mismas dosontologías de antes, podemos tener un mappingque relaciona el concepto Ratón ficticio78


Multilingualidad en una aplicación basada en el conocimientode la ontología Animales de ficción y elconcepto Ratón real de la ontologíaAnimales reales. Este mapping se llamatoma como ejemplo a. En este caso, losdatos de la información de mappings (elmapping toma como ejemplo a) está almismo nivel que los modelos de la informacióndel dominio (las ontologías Animales deficción y Animales reales). Y, portanto, el modelo de la información de mappingsestá al mismo nivel que el metamodelo de lainformación de dominio (el metamodelo de lasontologías).Hay que tener presente esta separación entrela distinta información que se va a tratar (dedominio, lingüística y de mappings), ya que,como en el último caso de mappingsejemplificado, no estarán al mismo nivel losdatos, modelos o metamodelos.3 Estado de la cuestiónEl interés de los investigadores de InteligenciaArtificial por el lenguaje natural se centróprimeramente en la comunicación del usuariocon la máquina, con lo que las interfaces fueronlos primeros componentes de las aplicacionesinteligentes construidas en lenguaje natural(Abascal y Moriyón, 2003). Así lo explicaMoreno (2000): “De hecho, el interés por lossistemas de Natural Language Processingbasados en el conocimiento surgió a raíz de lanecesidad de construir interfaces en lenguajenatural para sistemas expertos”. Las ontologíastienen como principales características: el serun modelo consensuado por la comunidad deldominio, la compartición de su conocimiento yla computabilidad del mismo. Todo esto haconvertido a las ontologías en lasrepresentaciones más utilizadas en los nuevosdesarrollos y, sobre todo, han pasado a ser lapiedra fundamental de la creciente WebSemántica. Al mismo tiempo, debido a su usogeneralizado, no pueden escapar al fenómenode la globalización que exige ahora que lainformación en lenguaje natural sea ademásmultilingüe.Las ontologías se enfrentan, pues, alfenómeno de la multilingualidad -que ya semanifiesta de forma patente en diferentesrecursos léxicos computacionales- en lo que seha denominado el proceso de “localización deontologías”. La localización de un recursoléxico se entiende como el proceso deadaptación de ese recurso a una comunidadlingüística y cultural concreta. Hasta ahora, eltérmino ‘localización’ se ha venido aplicando alsoftware (Esselink, 2000). Pero, si loextrapolamos al dominio de las aplicacionesbasadas en ontologías, nos encontraremos conque, en un sistema basado en el conocimiento,ese proceso de adaptación tiene que darse entres niveles diferentes:• Interfaz• Representación del conocimiento• DatosEn la actualidad, pocas son las aplicacionesbasadas en ontologías disponibles en más deuna lengua natural. La biblioteca de ontologíasOntoSelect 1 contiene únicamente 28 ontologíasmultilingües de las 1.117 que recoge, es decir,menos de un 3%. Además, se ha podidoconstatar que estas ontologías multilingüesmuestran, en su mayoría, importantes carenciasen aquellas lenguas que no son la original decreación de la ontología.Como resultado de la búsqueda deontologías multilingües, conviene destacar lacasi nula información pública disponible sobrela representación de la multilingualidad para losdiferentes recursos multilingües.Esto puede ser debido a que, hasta ahora, larepresentación de la multilingualidad no ha sidoobjetivo primordial de la investigación sino queel interés se centraba meramente en suexistencia. Es decir, que en los recursos ysistemas multilingües la multilingualidad erauna propiedad secundaria, más enfocada a laexplotación de los mismos que a laconformación del propio recurso. Sólo en casoscontados la multilingualidad ha sido tratada conla importancia que le confiere la explotaciónactual desde la perspectiva de la globalización.No hay que olvidar en ningún momento que lascaracterísticas básicas de las ontologías, que leshan convertido en uno de los sistemas derepresentación más extendido y con mayor augeen los últimos años, son el consenso de suconocimiento y la reutilización del mismo. Y espara lograr esta reutilización y este consensopara lo que es básica la multilingualidad. En lossiguientes subapartados recorreremos algunosde los sistemas que incorporan multilingualidad1 http://olp.dfki.de/OntoSelect/79


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos GargantillaFigura 1: Esquema general de dos wordnets mapeados al ILI (Vossen, 2002)3.1 EuroWordNetEuroWordNet 2 (EWN) (Vossen, 2002 y 2004)fue un proyecto europeo de tres años deduración (1996-1999) y cuyo resultadoprincipal fue un lexicón multilingüe. Esterecurso léxico se basaba en la estructura de labase de datos léxica WordNet, desarrollada enla Universidad de Princeton (Miller et al.,1990). El objetivo del proyecto consistía en eldesarrollo de un lexicón multilingüe conwordnets para ocho lenguas europeas(holandés, español, italiano, inglés, francés,alemán, checo y estonio). El enfoque generalseguido para la construcción de EWN se basabaen la reutilización de recursos léxicos existentesen cada lengua.Al igual que en WordNet, la informaciónsobre nombres, verbos, adjetivos y adverbios seorganiza en synsets (conjunto de sinónimos, esdecir, palabras con la misma categoríagramatical, e intercambiables en ciertoscontextos). Los wordnets en EWN seconsideran “ontologías autónomasmonolingües”, que están interconectadas através de un Inter-Lingual-Index (índiceinterlingüístico o ILI). Dicho ILI consta de unalista de conceptos sin estructura, procedentes deWordNet y relacionados con dos ontologías,una general y otra de dominio (Top-Ontology yDomain-Ontology, respectivamente). Unaselección de conceptos del ILI forma el núcleode las diferentes ontologías monolingües, que2 http://www.illc.uva.nl/EuroWordNet/se amplía y complementa con conceptosespecíficos de cada lengua, como se muestra enla Figura 1.3.2 GENOMA-KBLa Base de Conocimientos sobre el GenomaHumano (GENOMA-KB 3 ) (Cabré et al., 2004ay 2004b) fue un proyecto desarrollado en elInstituto de Lingüística Aplicada (IULA) de laUniversitat Pompeu Fabra en Barcelona (2001-2003). Este proyecto persigue la construcciónde un recurso esencial para la recuperación deinformación, con control terminológico, en eldominio del genoma humano, en inglés,castellano y catalán. Esta base de conocimientose divide en cuatro módulos interrelacionados:el módulo ontológico, el módulo terminológico,el módulo del corpus y el módulo de lasentidades, como se puede observar en la Figura2.El módulo ontológico se desarrolló con laherramienta de gestión terminológicaOntoTerm 4 , porque permite la construcción dela ontología y la base de datos terminológica deforma paralela. Esta herramienta, utilizadatambién en el proyecto OncoTerm 5 ,proporciona un núcleo ontológico formado por21 conceptos básicos (ALL, OBJECT, EVENT,PROPERTY, etc.). A continuación, a estosconceptos básicos se les añadió una lista de 100conceptos propuestos por expertos en el3 http://genoma.iula.upf.edu:8080/genoma/4 http://www.ontoterm.com/5 http://www.ugr.es/~oncoterm/80


Multilingualidad en una aplicación basada en el conocimientodominio, y el resto de conceptos de la ontologíase recuperó a partir de información textualespecializada, con la ayuda de recursos léxicos.De esta forma, la información lingüística pasó aestar integrada en un modelo separado de laontología, con lo que se obtenían dos modelos,el ontológico y el terminológico, relacionadosentre sí. Esta distribución posibilita la inclusiónde una cantidad considerable de informaciónlingüística en la base terminológica, sin que porello la ontología tenga que sufrir ningún tipo demodificación.Figura 2: Arquitectura de la base de conocimiento GENOMA-KB (Feliu, Vivaldi y Cabré, 2002)3.3 AGROVOCLa Organización de las Naciones Unidas para laAgricultura y la Alimentación (FAO) desarrollóel Tesauro AGROVOC (Soergel et al., 2006) aprincipios de los años 80 con la finalidad deestandarizar el proceso de indexación yrecuperación de datos en el dominio de laagricultura, la pesca, la alimentación y otrosdominios relacionados como el medioambiente. AGROVOC se desarrolló porexpertos del dominio en inglés, yposteriormente se tradujo al español y alfrancés. Actualmente está disponible online 6 en10 lenguas y en proceso de traducción paraotras tantas.La estructura del tesauro actual se centra enuna representación conceptual basada en laconcepción semántica del inglés, contraducciones al resto de lenguas, con lo que lainformación lingüística estaría integrada en elmodelo de la ontología. Todas y cada una de laslenguas comparten un mismo concepto, y lostérminos se consideran equivalentes entre sí.6 http://www.fao.org/aims/4 Niveles de multilingualidadComo ya se ha apuntado, la multilingualidad,en una aplicación sobre un sistema basado en elconocimiento, puede darse en tres nivelesdiferentes:- Interfaz- Representación del conocimiento- DatosUna vez identificados los niveles en los quese manifiesta la multilingualidad, en losapartados siguientes se analizan cada uno deellos y se presentan diversas propuestas sobrecómo incorporar la multilingualidad en lasontologías, destacando las ventajas ydesventajas de las soluciones propuestas.5 InterfazAunque el análisis de la interfaz ya haya sidotratado por otras áreas más cercanas a lainteracción hombre-máquina, queremos dejarpatente la idea de que la multilingualidad deuna interfaz puede o no conllevar lamultilingualidad del resto de la aplicación (elsistema basado en el conocimiento subyacente).81


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos GargantillaPor ello creemos que es convenientemencionarlo en este estudio para dar una ideamás global del alcance de la multilingulidad entodas sus facetas.La multilingualidad en la interfaz puededarse en dos visualizaciones diferentes:visualización de mensajes y visualización decontenido.5.1 MensajesLos mensajes de una interfaz pueden sermonolingües o multilingües, y, dentro de lossegundos, pueden ser multilingüessimultáneamente o no.Figura 3: Ejemplo de mensajes monolingüesFigura 4: Ejemplo de mensajes multilingüessimultáneosFigura 5: Ejemplo de mensajes multilingües no simultáneosEn la Figura 3 aparece un ejemplo deinterfaz con mensaje monolingüe en inglés. Enla Figura 4 se muestra un ejemplo de interfazcon mensajes multilingües simultáneos, esdecir, con más de una lengua a la vez (inglés yespañol en el ejemplo).Finalmente, en la Figura 5 se encuentra unejemplo de interfaz con mensajes multilingüesno simultáneos: se puede ver en varios idiomaspero sólo uno cada vez.5.2 ContenidoLa visualización de contenido de formamultilingüe tiene dos posibles vías deresolución: (a) la base de conocimientos esmultilingüe, o (b) la base de conocimientos esmonolingüe y se usa un sistema de traducción.En el primer caso, la aplicación sólorealizará una consulta a la base deconocimientos para obtener el contenido quemostrará la interfaz en el idioma requerido.En el segundo caso, la aplicación consultarála base de conocimientos y luego utilizará unrecurso multilingüe (diccionario, glosario, basede datos, etc.) para traducir el contenido ymostrarlo a través de la interfaz.En ambos casos, la interfaz resultante seríasimilar y podría seguir la misma política desimultaneidad o no simultaneidad que se hamencionado en la visualización de mensajes.Sin embargo, es importante tener en cuenta elque la base de conocimientos sea multilingüe ono para los tiempos de respuesta.5.3 Ventajas y desventajasCada una de las soluciones mencionadaspresenta ventajas e inconvenientes. Lavisualización de mensajes de forma simultáneaimplica que la incorporación de nuevos idiomasrequiere la modificación del código devisualización existente. Ahora bien, lavisualización no simultánea no implica lamodificación de todo el código existente, sino82


Multilingualidad en una aplicación basada en el conocimientola ampliación del número de interfaces y laconsiguiente modificación de la parte deinterfaz donde se codifican las opciones(banderas en el ejemplo de la Figura 5).En cuanto a los tiempos de respuesta en lasconsultas, podemos encontrarnos con dos casos:(a) si se dispone de una base de conocimientosmultilingüe, el tiempo de obtención de loscontenidos que se muestran es el tiempo derespuesta de la base de conocimientos. Esto sedebe a que se ha conferido multilingualidad a labase de conocimientos en tiempo de diseño. Sinembargo, para el caso (b) cuando la base deconocimientos es monolingüe, la traducción serealiza en tiempo de ejecución, y el tiempo deobtención de los contenidos es el tiempo derespuesta de la base de conocimientos más eltiempo de respuesta del recurso multilingüe queproporciona la traducción. En este segundocaso, pueden surgir ciertos problemasadicionales como, por ejemplo, ladesambiguación, que, en el primer caso, sehabrá resuelto en tiempo de diseño. Esto suponeque la aplicación tendrá unos tiempos derespuesta diferentes en cada solución.6 Representación del conocimientoLa multilingualidad en una representación delconocimiento se tiene que abordar a tresniveles: Información, Modelización yRealización. En cuanto al primero, laInformación, se refiere al dato de que larepresentación del conocimiento se encuentraexpresada en varios idiomas. La Modelizaciónes la representación de los componentes quedarán multilingualidad a la representación delconocimiento. Finalmente, la Realización es laexpresión lingüística real de la multilingualidaden la representación del conocimiento.Tomemos un ejemplo sencillo para la mejoridentificación de los niveles: un libro. Lainformación serían los datos del libro (autor,título, año de publicación, país), lamodelización sería similar a “páginas impresasconsecutivas entre dos pastas y unidas por unlado común llamado lomo” y la realizaciónsería el tomo físico. Igualmente, para el caso delas ontologías, la información está compuestapor los metadatos de la ontología (autor, fechade creación, etc.), la modelización es lametaontología que describe los componentes dela ontología y sus relaciones (conceptos quetienen atributos y se unen por relaciones...) y larealización sería una ontología propiamentedicha (ontología de coches, de libros, deprofesiones, etc.).Veamos cada una de ellas y lasimplicaciones de cada uno de los aspectos de lamultilingualidad ejemplificando con el casoconcreto de las ontologías.6.1 InformaciónLa información sobre la multilingualidad deuna representación del conocimiento formaparte de los metadatos de dicha representación.Así, junto con metadatos como el autor o lafecha de creación de la representación delconocimiento, aparecerá la información sobremultilingualidad.En principio, tan sólo sería necesario saberlas lenguas en las que la representación (en estecaso en particular, la ontología) está disponible.Y decimos en principio porque, como se veráen la parte de modelización, también seránecesario expresar los componentes de larepresentación (de la ontología) que tienen estamultilingualidad.Para ejemplificar esto, tomemos como baseuna representación de ontología en la que sealmacenan como metadatos el autor, la fecha decreación y la dirección URI donde se encuentra.Con la finalidad de ofrecer una realizaciónconcreta es recomendable introducir estainformación en un estándar o similar, como esel vocabulario de metadatos sobre ontologíasOMV (Hartman y Palma, 2006).Para almacenar la información sobremultilingualidad, existen dos posiblessoluciones:1) Concepto lingüístico: Se dispone delconcepto Language, con sucorrespondiente caracterización, y seasocia con el concepto Ontology. Estarelación lleva asociada la informaciónrelativa a los componentes que están endicha lengua. En la Figura 6 se hanincluido unas etiquetas bajo el conceptoLanguage a modo de ejemplo, teniendoen cuenta que una lengua tiene diversoscomponentes (alfabético, con caracterescirílicos o latinos, por ejemplo, morfosintáctico,léxico y semántico). Lamultilingualidad pasaría por tener variasrelaciones para las diferentes lenguas.83


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos GargantillaFigura 6: Información de multilingualidad con concepto que representa la lengua (Language)2) Modificación del concepto Ontology:Se dispone de un metadato con valormúltiple y ese metadato se representa pormedio de tuplas de la lengua y delcomponente que está en dicha lengua.Figura 7: Informacion de multilingualidadmodificando el concepto OntologyEn la Figura 6 se puede ver un ejemplocorrespondiente a la primera solución y en laFigura 7 se presenta un ejemplocorrespondiente a la segunda solución.Cualquiera de las dos soluciones resolveríala expresión de información sobre lamultilingualidad. Además, la representación dela información de multilingualidad esindependiente del enfoque que se siga para larepresentación del contenido.6.1.1 Ventajas y desventajasVeamos ahora las implicaciones de cada una delas dos soluciones. La primera opción (Figura6) requiere la instanciación del conceptoLanguage con información del dominiolingüístico, lo que no es un trabajo trivial.Además, sistemas que traten con relaciones quelleven asociadas información semántica (en estecaso is expressed in lleva asociadocomponent) son difíciles de encontrar. Parasuperar este handicap se puede optar por unareificación, con lo que toma entidad deconcepto Component y se establecen dosrelaciones: Composed by entre Ontology yComponent y is expressed in entreComponent y Language.Por otra parte, la segunda solución (Figura7) supone una pérdida de informaciónlingüística sobre la lengua. Por ello, resultaimprescindible realizar una evaluación previade la información lingüística necesaria para elsistema en concreto. Sin embargo, si se quiereprescindir de este tipo de información, resulta lasolución más sencilla, porque tiene menosinformación lingüística y es más fácil deimplementar.Ahora bien, en el caso en que se hiciera unamodificación como la propuesta en la opción 2,pero sólo con un atributo en que se indicase lalengua (Language) en vez de la tupla(Component, Language), se perdería laposibilidad de que un componente de laconceptualización pudiera ser multilingüe omonolingüe independientemente del resto decomponentes.6.2 ModelizaciónLa segunda de las perspectivas que hemosmencionado es la modelización. En esteámbito, la modelización de la multilingualidaden ontologías admite tres posibles soluciones:(a) ampliación con información lingüística delmetamodelo de ontologías, (b) agregación de unmodelo de información lingüística que serelacionará con el metamodelo de ontologíaspara representar la multilingualidad, y (c)utilización de un modelo de mappings pararelacionar ontologías monolingües y obtener asímultilingualidad.En los tres subapartados siguientes semuestran diversos ejemplos de modelizacionesque ilustran las soluciones propuestas. Enningún caso se ha pretendido, por razones deespacio, una exhaustividad total en las posiblesvariantes que permita cada solución, sino que elobjetivo es, más bien, facilitar al lector lacomprensión de las teorías expuestas, teniendoen cuenta que los ejemplos no son reales pero síextrapolables.84


Multilingualidad en una aplicación basada en el conocimiento6.2.1 Metamodelo de ontologíasmodificadoEn este caso, dentro del metamodelo de laontología se incluye la modelización de lainformación de la multilingualidad. Hay quetener en cuenta que esta información se puedeprecisar a nivel de componentes (clase,propiedad, axioma, etc.) dentro de la ontología.Así, las modificaciones en el metamodelo de laontología pueden ser más o menos profundas,según el número de componentes al que afecte.Figura 10: Ejemplo de ampliación conmultilingualidad en atributos de los conceptosFigura 8: Ejemplo de metamodelo de ontologíasFigura 11: Ejemplo de ampliación conmultilingualidad en etiquetas relacionadas conlos atributosFigura 9: Ejemplo de ampliación conmultilingualidad de etiquetas en conceptos, conidiomas previamente fijadosEn la Figura 8 se puede ver un ejemplosimplificado de un metamodelo de ontologíassiguiendo el paradigma de marcosFigura 12: Ejemplo de ampliación conmultilingualidad en etiquetas relacionadas conlos conceptos y atributos85


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos GargantillaEn las siguientes figuras presentamos variasmodificaciones de ese metamodelo: conmultilingualidad en etiquetas de conceptos(Figura 9 y Figura 10); con multilingualidad enetiquetas de atributos (Figura 11); conmultilingualidad en etiquetas tanto de conceptoscomo de atributos (Figura 12) y, finalmente,incluyéndola en etiquetas de conceptos, deatributos y de relaciones (Figura 13). Enrealidad, puede haber más combinaciones, perocomo se ha mencionado antes, no se pretenderecoger aquí una relación exhaustiva de todaslas posibles.6.2.2 Metamodelo de ontología y Modelode recurso lingüísticoLa creación de un modelo para la informaciónmultilingüe utilizando un modelo de recursolingüístico permite un aumento de lasposibilidades de inclusión de informaciónacerca del idioma de expresión de loscomponentes de las ontologías. El metamodelode multilingualidad constará, pues, delmetamodelo de la ontología, el modelo delrecurso lingüístico y los enlaces entre elmetamodelo de ontologías y el modelo derecurso lingüístico.La Figura 14 ilustra una posible soluciónpara un modelo de etiquetas (modelo delrecurso lingüístico), que no modifica elmetamodelo de ontologías que aparece en laFigura 8. En este modelo de recurso lingüísticola etiqueta viene caracterizada por un texto(Text), por ejemplo ‘vino’.Figura 13: Ejemplo de ampliación conmultilingualidad en etiquetas relacionadas contres componentesFigura 14: Ejemplo de modelo de etiquetasFigura 15: Ejemplo de metamodelo de multilingualidad para etiquetas de conceptos86


Multilingualidad en una aplicación basada en el conocimientoFigura 16: Ejemplo de metamodelo de multilingualidad para etiquetas de conceptos, de atributos y derelacionesSe puede utilizar un modelo de recursolingüístico con información específica paraetiquetas o utilizar uno que modele másinformación aunque no sea necesaria para esteuso.Al igual que en la sección anterior, existenmúltiples posibilidades a la hora de combinarlas etiquetas y los componentes de la ontologíapara dotar a estos últimos de multilingualidad.En la Figura 15 se muestra un ejemplo demetamodelo de multilingualidad para etiquetasde conceptos. En la Figura 16 se muestra unmetamodelo de multilingualidad para etiquetasde conceptos, de atributos y de relaciones.6.2.3 Metamodelo de ontología y Modelode mappingsOtra forma de conseguir que el modelo seamultilingüe es mediante la combinación de unmodelo de mappings con el metamodelo deontologías. En este caso, la multilingualidad seconsigue con ontologías del mismo dominiopero en diferente lengua (todas monolingües) ymappings de equivalencia entre los términos delas diferentes lenguas.Un ejemplo de este metamodelo se muestraen la Figura 17.Figura 17: Ejemplo de metamodelo de multilingualidad con mappings para etiquetas de conceptos, deatributos y de relaciones87


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos GargantillaLa finalidad de este metamodelo no es serun metamodelo de multilingualidad, aunquecon él se pueda representar la multilingualidadsi atendemos sólo a los mappings querelacionan componentes a través de la función“translate” o “equivalence label”, por ejemplo.Así pues, la multilingualidad puedepresentarse de múltiples formas, dependiendotanto del modelo de mappings que se utilicecomo del metamodelo de ontologías empleado,y de las relaciones que entre ambos seestablezcan. Por ejemplo, si el mapping no esde aridad limitada a dos, es decir, relaciona másde dos elementos, se podría hacer un mappingmúltiple entre todos los términos relacionados yde esta forma se evitaría un alto número demappings binarios entre varias ontologíasmonolingües.Este metamodelo es el menos intuitivo a estenivel de abstracción, pero quedarásuficientemente claro al mostrar las diferentesrealizaciones posibles que se derivan de él, yque se analizan en la sección 6.3.3.6.3 RealizaciónLa tercera de las perspectivas apuntadas másarriba es la realización de la multilingualidad,que está unida irremediablemente a lamodelización de la misma. Estas acciones sonlas dos únicas, de las que aparecen en estedocumento, que tienen una estrechainterrelación, de manera que la una depende dela otra, ya que la realización no es más que lainstanciación de la modelización, es decir, elmodelo será la instancia del metamodelo.6.3.1 Información lingüística dentro de laontologíaEn este primer caso, la realización secorresponde con el enfoque en que se amplía elmetamodelo de la ontología para introducir lainformación lingüística que permitirá lamultilingualidad (5.2.1.).Según sea la modificación del metamodeloque se haya seguido obtenemos diversasrealizaciones. Así, la Figura 18 muestra unejemplo de realización del metamodelo deejemplo mostrado en la Figura 9.Figura 18: Ejemplo de modelo basado en un metamodelo de ontologías ampliado para etiquetasmultilingües en conceptosFigura 19: Ejemplo de modelo basado en metamodelo de ontologías ampliado para etiquetasmultilingües en conceptos y atributosEn el ejemplo de la Figura 18 se observaque existen tres etiquetas que identifican acada concepto. Sin embargo, tal como se puedever en la Figura 9, los atributos no tienenmultilingualidad al sólo disponer de unaetiqueta.Si la ampliación del metamodelo deontologías afectase de igual forma a losatributos, dotándoles de las mismas tresetiquetas, se obtendría un modelo como elreflejado en la Figura 19.88


Multilingualidad en una aplicación basada en el conocimientoFigura 20: Ejemplo de modelo basado en metamodelo de ontologías ampliado con etiquetas asociadasa conceptosComo se menciona en la sección anterior, sepueden realizar diferentes ampliaciones en elmetamodelo de ontología para incluir lainformación lingüística que permite representarla multilingualidad. En la Figura 20 se puedever un ejemplo de realización correspondienteal metamodelo que aparece en la Figura 10.6.3.2 Información lingüística fuera de laontologíaCuando la información lingüística toma entidady se convierte en modelo separado de laontología en sí, estamos ante la posibilidad deutilizar metamodelos de multilingualidad queengloben el metamodelo de ontologías, elmodelo del recurso lingüístico y las relacionesentre estos dos.Ahora bien, puesto que el modelo delrecurso lingüístico puede ser una base de datosrelacional, una base terminológica, un lexicónmultilingüe, un tesauro multilingüe, etc., elnúmero de emparejamientos ‘modelo deontologías’ – ‘conjunto de instancias delrecurso lingüístico’ se dispara. Además, puededarse el caso de que se utilice un metamodelode ontologías que almacene informaciónlingüística de una lengua en sus etiquetas o bienque las etiquetas de la ontología no pertenezcana ninguna lengua.Para ejemplificar estas posibilidades semuestran a continuación dos ejemplosreflejados en la Figura 21 y la Figura 22. En laprimera de ellas la ontología no contieneinformación lingüística y toda la informaciónque conforma la multilingualidad estáalmacenada en el recurso lingüístico, que, parafacilitar la comprensión, se ha optado porrepresentar de una manera simplificada.Figura 21: Ejemplo de modelo basado en un metamodelo de multilingualidad con metamodelo deontologías “alingüe” y modelo de recurso lingüístico89


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos GargantillaFigura 22: Ejemplo de modelo basado en un metamodelo de multilingualidad con metamodelo deontologías monolingüe y modelo de recurso lingüísticoEn cambio, en la Figura 22, podemos verque la información correspondiente a una de laslenguas está almacenada en forma de etiquetasen la ontología.Para ilustrar mejor estos casos, cabemencionar, como ejemplo de un sistema realque sigue uno de estos modelos, el sistemaGenoma-KB (Cabré et al., 2004a y 2004b).Como se ha visto en el estado de la cuestión,este sistema consta de una ontología conetiquetas que no se atienen a ninguna lengua yuna base terminológica en donde se encuentrala información lingüística que dota demultilingualidad a la base de conocimientos.Aunque en los ejemplos mencionados eneste apartado se toma, por razones de claridad,la multilingualidad de las etiquetas de losconceptos, no hay que olvidar que puedenexistir también otros sistemas conmultilingualidad para los diferentescomponentes de las ontologías (atributos,relaciones, etc.) y todas sus combinaciones.6.3.3 Uso de mappings con funciónlingüísticaComo ya se ha apuntado en el epígrafe 6.2.3,los modelos basados en un metamodelo demultilingualidad que conste de un metamodelode ontologías enlazado a un modelo demappings pueden tener varias realizacionesdiferentes según sea el modelo de mappings.Así, aunque se siga el mismo metamodelo demultilingualidad, se pueden obtener diferentesrealizaciones siempre que las herramientas lopermitan.Veamos alguna de estas posibilidades.Tomando como base el metamodelo delejemplo que aparece en la Figura 17, semuestran a continuación tres realizacionesdiferentes: con mappings binarios entreconceptualizaciones monolingües en forma degrafo ortogonal (Figura 23), con mappings n-arios entre conceptualizaciones monolingües(Figura 24) y con mappings binarios entre lasconceptualizaciones monolingües y unaconceptualización intermedia en forma de graforadial (Figura 25).Figura 23: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings binarios engrafo ortogonal90


Multilingualidad en una aplicación basada en el conocimientoFigura 24: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings n-ariosFigura 25: Ejemplo de modelo basado en metamodelo de multilingualidad con mappings binarios engrafo radialAl igual que se ha explicado en el apartadoanterior, todos los modelos de ejemplocorrespondientes a esta sección se estántomando como multilingües a nivel de etiquetasde concepto, pero, siempre que lo admita elmetamodelo de mappings, se puede representarmultilingualidad del componente o conjunto decomponentes que se desee.En el caso del modelo de la Figura 24 sepueden ver mappings de aridad tres, pues laaridad ha de ser igual al número de ontologíasmonolingües del sistema.La gran desventaja de esta solución es queningún sistema contempla mappings de aridadsuperior a dos, salvo soluciones ad hoc paraoperaciones concretas. Sin embargo, paraexpresar esta misma información de otro modocon mappings binarios, se puede recurrir a laconstrucción de una conceptualización sininformación lingüística que haga las veces desolución reificada de la anterior.La realización que sigue este último modelo,ejemplificado en la Figura 25, es similar a lautilizada por EuroWordNet (Vossen, 2002 y2004), analizada en el estado de la cuestión,donde la conceptualización intermedia es unaInterlingua (ILI) que no pertenece a ninguna delas lenguas que reconoce el sistema. EnEuroWordNet las ontologías no son merastraducciones tal y como las tomamos para larealización, sino conceptualizaciones propias decada lengua.91


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla6.4 Comparativa de las solucionesPara poder elegir entre una de las solucionesque aquí se han expuesto, es necesario disponerde unos criterios básicos sobre los que se apoyala decisión que se vaya a tomar, ponderandopara cada caso particular, la conveniencia decada solución.Para facilitar esta tarea, hemosconfeccionado una tabla en donde se reflejanestos datos.Las características y los criterios que se hantomado como referencia son:(a) Número de metamodelos y modelos delmetamodelo de ontologías multilingües(b) Número de modelos y conjuntos deinstancias del modelo multilingüe(c) Número de razonadores (R): depende delnúmero de modelos y conjuntos deinstancias. Nos encontraremos 3 tipos derazonadores:• Razonadores sobre ontologías (OR)• Razonadores sobre mappings (MR)• Razonadores sobre recurso lingüístico(LRR)(d) Complejidad de las consultas: el nivel decomplejidad de una consulta se infiere delnúmero de modelos y conjuntos deinstancias del modelo multilingüe y delnúmero de componentes de ellos que han deser consultados para obtener el resultado.Así, hemos identificado 5 niveles decomplejidad diferentes para nuestropropósito, que estarán comprendidos en unrango de 1 (la más baja complejidad) a 5 (lamás alta complejidad).Nivel decomplejidad1 modelo oconjunto deinstancias2 modelos oconjuntos deinstancias1 componente 1 32 componentes 2 43 componentes - 5(e) Complejidad de adición de una nuevalengua: el grado de complejidad que nosencontraremos cuando queramos añadir unanueva lengua a nuestra base deconocimiento depende de los elementos quehaya que modificar, pudiéndo estar entre 1(la menor) y 3 (la mayor):Objetivo de lamodificaciónNivel decomplejidadMetamodelo 3n modelos o conjuntos de 2instancias1 modelo 1(f) Complejidad del mantenimiento de laconsistencia: este mantenimiento dependedel número de modelos y conjuntos deinstancias del modelo multilingüe. Cuantosmás modelos sean necesarios (más gestoresde esos modelos), mayor dificultad habrá enmantener la consistencia.ComplejidadNivel decomplejidadc (constante) 1n (lineal) 2n² (cuadrática) 3(g) Disponibilidad real de herramientas ysistemas existentes: este criterio se refiere alnúmero de componentes (gestores,razonadores, etc.) con los que se puedecontar realmente.Una vez establecidos los criterios deevaluación, veamos cómo se aplican a losejemplos de los 3 metamodelos multilingüespresentados en la sección anterior.1) Metamodelo de ontologías modificado.En los ejemplos recogidos en la Figura 9, laFigura 10, la Figura 11, la Figura 12 y la Figura13, pueden verse los modelos multilingües frutode la inserción de la información lingüísticadentro de una clase del metamodelo de lasontologías.En estos modelos, el número de modelos (a)es 1, y, por tanto, el número de razonadores (c)es también 1. El nivel de complejidad de laconsulta (d) reflejado en los modelos de laFigura 18 y la Figura 19 es también 1, porquepara obtener el resultado se necesita consultarun modelo y un único componente, lo querepresenta una gran ventaja. Sin embargo, paralos modelos multilingües provenientes deincorporar información lingüística como clasesdentro del metamodelo de ontologías (Figura20), la complejidad de la consulta aumenta a 2,ya que en las resoluciones se requiere de doscomponentes (las clases con informaciónconceptual y las clases con informaciónlingüística).92


Multilingualidad en una aplicación basada en el conocimientoPor otra parte, para añadir una nueva lengua(e), nos encontramos con algunas limitaciones,porque el número de lenguas en el metamodelomultilingüe de la Figura 10 se ha establecido entiempo de diseño y, por lo tanto, es fijo.Aumentar el número de lenguas supondría unagran desventaja, porque sería necesario cambiarel metamodelo de toda la base de conocimiento.Por esto es por lo que la complejidad de estatarea sería 3. En cambio, para el caso de añadirotras lenguas en los casos reflejados en laFigura 10, Figura 11, la Figura 12 y la Figura13 no haría falta cambiar el metamodelo, con loque la complejidad de esta tarea sería 1.2) Metamodelo de ontologías + Modelo derecurso lingüístico. Veamos ahora el caso demetamodelos de ontologías enlazados conmodelos de recursos lingüísticos (Figura 15 yFigura 16), que se corresponden con los dosejemplos de modelos multilingües,representados en la Figura 21 y la Figura 22. Enestos casos, nos encontramos con 2 modelos oconjuntos de instancias (a), que implican 2razonadores (c), y el nivel de complejidad delas consultas (d) es 3.Metamodelo deontologíasmultilingüeModelo deontologíasmultilingüeMetamodeloontologíasmodificandoConceptFigura 9Figura 18 yFigura 19MetamodeloontologíasinsertandoconceptosFigura 10,Figura 11,Figura 12 yFigura 13Figura 20Número demetamodelos ymodelos (a)Número demodelos yconjuntos deinstancias: 1(O) 1(O)ontologías (O),mappings (M)y LR (b)Número derazonadores (c)1 OR 1 ORComplejidadde consultas (d)Complejidadde adición de 3 1lengua (e)Complejidadmantenimientoconsistencia (f)Disponibilidadreal (g) SÍ SÍMetamodeloontologías +modelo RLFigura 15 yFigura 16Figura 21 yFigura 22Metamodelo ontologías + modelo mappingsFigura 17Mappings endistribuciónortogonalFigura 23Mappings endistribuciónradialFigura 25Mappings dearidad nFigura 241 1 2 2 2 21(O) +1 (LR)1 OR1 LRRn(O) +n(n-1)/2 (M)1 OR1 MRn (O) +1(M)1 OR1 MRn+1(O) +1 2 3 4 5 41-3 (dependedel recursolingüístico)n (M)1 OR1 MR2 1 11 1 2 n + n(n+1)/2 n+1 2n+1(depende delrecursolingüístico)SÍ SÍ NOTabla 1: Criterios de selección de solucionesPor otra parte, el nivel de complejidad deañadir una nueva lengua (e) puede variar de 1 a3, dependiendo del modelo del recursolingüístico. Si ello implica modificación delmodelo en el recurso lingüístico la complejidadserá 3 (en este caso representará una desventaja93


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantillaimportante), pero si sólo se trata de añadirnuevas instancias de la información lingüística,la complejidad será 1. Del mismo modo, elcriterio de la disponibilidad de las herramientasy sistemas existentes está condicionado almodelo del recurso lingüístico.3) Metamodelo de ontologías + Modelo demappings. El metamodelo de multilingualidadformado por el metamodelo de ontologías y elmodelo de mappings (Figura 17) tiene 2metamodelos o modelos (a), pero el número demodelos de ontologías y conjuntos de instanciasde mappings sobre los que mantener laconsistencia (f) no es igual para cadainstanciación. Así, se obtienen tres diferentesplanteamientos, representados en la Figura 23,la Figura 24 y la Figura 25, respectivamente,donde este número varía:• Si el sistema se forma con mappingsbinarios en una distribución ortogonal(Figura 23) el número es: n (ontologías) +n(n-1)/2 (conjuntos de mappings).• Si el sistema se forma con mappingsbinarios en una distribución radial (Figura25) el número es: n + 1 (ontologías) + n(conjuntos de mappings).• Si el sistema se forma con mappings n-arios(Figura 24) el número es: n (ontologías) + 1(conjuntos de mappings).Estas soluciones tienen una gran desventajaal tener que repetir información conceptual entodas las ontologías (monolingües). Lacomplejidad de las consultas (d) está entre 4 y 5porque el número de modelos y los multiplescomponentes que habría que consultar pararesolverlas. Una limitación importante a teneren cuenta es el mantenimiento de laconsistencia. El número de mappings puede sermuy alto, en consonancia con el número demodelos de ontologías, con lo que laconsistencia puede verse amenazada. La adiciónde una nueva lengua (e) supone un nivel decomplejidad bajo:• Si el sistema se forma con mappingsbinarios en una distrbución ortogonal(Figura 23) el nivel será el más alto de lostres casos, siendo de 2, al ser necesario tenerque cambiar n conjuntos de instancias demappings.• Si el sistema se forma con mappingsbinarios en una distribución radial (Figura25) el nivel de complejidad es 1, porque tansólo un conjunto de instancias de mappingsha de modificarse.• Si el sistema se forma con mappings n-arios(Figura 24) el nivel de complejidad será elmismo que en el caso anterior, ya que sólohabrá que modificar un conjunto deinstancias de mappings.Sin embargo, el problema para el uso de laúltima solución (Figura 24) no es lacomplejidad asociada que lleve, sino que noexisten sistemas y herramientas que seancapaces de manejar mappings de aridad mayorque dos.Para hacer uso de la tabla y obtener lasolución más adecuada a nuestras necesidades,habrá de tener en cuenta todas lascaracterísticas de la situación de partida a lahora de crear nuestra aplicación. Así, a losaspectos reflejados directamente en la tabla yque son propios del uso de la aplicación(frecuencia de modificaciones en el número deidiomas, frecuencia de consultas, etc.), seañaden los derivados de las situacionesparticulares de cada caso. Por ejemplo, sipartimos de cero y queremos crear un sistemabasado en el conocimiento y una aplicaciónmultilingüe sobre cualquier plataforma yaexistente que gestione este sistema, no implicaninguna restricción adicional a lascaracterísticas intrínsecas del uso de laaplicación. Sin embargo, si partimos de unaontología creada y que está alojada en undeterminado servidor que nos convienemantener, las características de este servidorharán que el número de posibles soluciones aadoptar sea inferior (el servidor puede limitar elnúmero máximo de modelos a usar, no darsoporte a mappings, etc.).7 DatosEl último de los niveles en los que se manifiestala multilingualidad es en los datos, es decir, lainformación sobre los individuos. En este caso,vendrá condicionada por la propia naturaleza delos individuos y estará modelada en larepresentación del conocimiento que se tomapara el dominio.Dependiendo de la naturaleza de los datos ydel dominio de que se trate, la modelización dela multilingualidad dentro de la representacióndel conocimiento puede ser muy variada. La94


Multilingualidad en una aplicación basada en el conocimientomultilingualidad se tratará como otro carácterdel dominio que habrá que modelar.En la Figura 26 se muestran dos ejemplos dedatos multilingües modelados con unarepresentación del conocimiento monolingüe.En ambos casos, los datos individualmente sonmonolingües, pero su conjunto es multilingüe yesa multilingualidad está contemplada dentro dela representación de conocimiento por lacaracterística Language, que es parte de ladescripción del concepto (Article o Man).En la Figura 27 se muestra otro ejemplo dedatos multilingües, pero en este caso losindividuos que aparecen son mono ymultilingües.Figura 26: Ejemplos de datos multilingües (individuos monolingües)Figura 27: Ejemplo de datos multilingües (individuos multilingües)8 HibridacionesComo se ha explicado a lo largo de este trabajo,la multilingualidad de la base de conocimientose puede dar en uno o en varios componentes dela representación del conocimiento. Por tanto,pueden diseñarse sistemas en los que se hayaoptado por dotar de multilingualidad a cadacomponente, mediante una solución distinta.Por ejemplo, se puede tener la multilingualidadcorrespondiente a las etiquetas de los conceptosdentro del metamodelo de la ontología y, sinembargo, aportar la multilingualidad paraatributos y relaciones a través de la conexióncon un metamodelo de un recurso lingüístico.Se podría incluso optar por tenermultilingualidad a nivel de aplicación globalpara el contenido, realizándose la traducción delas relaciones en tiempo de ejecución, mientrasque los atributos se pueden traducir en tiempode diseño.95


Guadalupe Aguado de Cea, Elena Montiel Ponsoda, José Ángel Ramos Gargantilla9 ConclusionesComo se ha explicado, el problema de dotarde multilingualidad a las aplicaciones sobresistemas basados en el conocimiento, tambiéndenominado proceso de “localización”, haadquirido gran importancia. Tras una revisiónde diversos recursos multilingües, noscentramos en ofrecer una breve explicación delas nociones más relevantes de los tres nivelesque pueden soportar multilingualidad en una deestas aplicaciones, es decir, la interfaz, larepresentación del conocimiento y los datos. Eneste trabajo se hace un examen exhaustivo delas diferentes posibilidades de representación ysus implicaciones a nivel técnico. Cabe destacarla importancia de la identificación de lasventajas e inconvenientes en todos y cada unode los aspectos de la representación delconocimiento, principalmente en la elección dela modelización de la multilingualidad.Los metamodelos de representación demultilingualidad que en este artículo se recogenson tres:(a) Metamodelo de ontología modificado(b) Metamodelo de ontología y Modelo derecurso lingüístico(c) Metamodelo de ontología y Modelo demappingsTodos ellos cumplen con la función deproporcionar multilingualidad al sistema. Sinembargo, las implicaciones que se deriven decada elección pueden tener distintos alcances,como se ha resumido en la Tabla 1,principalmente en cuanto a la complejidad de laconsulta y la complejidad que implica lainclusión de una nueva lengua. Así pues, unmetamodelo de ontología ampliado coninformación lingüística (a) presenta distintasmodificaciones del metamodelo dependiendo delos componentes de la ontología que vayan asoportar multilingualidad, lo que a su vezimplica cambios en la complejidad de laconsulta. El caso (b) de agregación de unmodelo de recurso lingüístico relacionado conel metamodelo de ontología permite una únicaconceptualización para todas las lenguas y laindependencia de la información lingüística. Encuanto a la complejidad de la consulta, éstaaumenta por la existencia de dos modelos,mientras que la inclusión de una nueva lenguano requiere mayor complejidad que la queplantee el recurso lingüístico. Por último, el usode un modelo de mappings para relacionarontologías monolingües (c) tiene dosimplicaciones importantes: la primera se refierea la existencia de ontologías en todas y cadauna de las lenguas, y la segunda a que ladisponibilidad de herramientas que traten con elmodelo de mappings dependerá de la aridad delos mismos.Finalmente, cabe destacar la posibilidad decombinar opciones de representación a losdistintos niveles e incluso para los distintoscomponentes, creando de ese modo sistemashíbridos que se pueden adaptar a lasnecesidades del recurso y, lo que es másimportante, dejan la puerta abierta a lareutilización de recursos existentes.10 AgradecimientosEl trabajo aquí expuesto ha sido financiado porel proyecto europeo NeOn: NetworkedOntologies (FP6-027595).BibliografíaAbascal, J. y R. Moriyón. 2002. Tendencias eninteracción Persona-Computador. RevistaIberoamericana de Inteligencia Artificial,Vol. 6, nº 16.Esselink, B. 2000. A practical guide to softwarelozalization. John Benjamins Publishing.Hartmann, J. y R. Palma. 2006. OMV -Ontology Metadata Vocabulary for theSemantic Web, 2006. v. 2.0, available athttp://omv.ontoware.org/Peñas, A. y J. Gonzalo. 2004. Acceso ainformación multilingüe. Númeromonográfico de la Revista Iberoamericanade Inteligencia Artificial, Vol. 8. nº 22.Cabré, M. T., C. Bach, R. Estopà, J. Feliu, G.Martínez y J. Vivaldi. 2004a. TheGENOMA-KB project: towards theintegration of concepts, terms, textualcorpora and entities. LREC 2004 FourthInternational Conference on LanguageResources and Evaluation. Lisboa:European Languages Resources Association.pp. 87-90.Cabré, M. T., R. Estopà y J. Feliu. 2004b. ASpecialized Knowledge Base: fromDistributed Information to the SpecializedDictionary Construction. 11th EURALEXInternational Conference ProceedingsLorient: Euralex. pp. 867-872.96


Multilingualidad en una aplicación basada en el conocimientoFeliu, J., J. Vivaldi y M.T. Cabré. 2002.Towards an Ontology for a Human GenomeKnowledge Base. LREC2002. ThirdInternational Conference on LanguageResources and Evaluation. Proceedings. LasPalmas de Gran Canaria, pp. 1885-1890.ISBN: 295-1740-808.Miller G., R. Beckwith, C. Fellbaum, D. Grossy K. J. Miller. 1990. Revised in 1993.Introduction to WordNet: An On-lineLexical Database. International Journal ofLexicography, 3(4), 235–244.Moreno, A. 2000. Diseño e implementación deun lexicón computacional para lexicografíay traducción automática. Estudios deLingüística Española, Volumen 9.Soergel D., B. Lauser, A. Liang, F. Fisseha, J.Keizer y S. Katz . 2006. ReengineeringThesauri for New Applications: theAGROVOCExample.http://journals.tdl.org/jodi/article/viewArticle/jodi-126/111Vossen, P. 2002. EuroWordNet GeneralDocument. Disponible enhttp://www.vossen.info/docs/2002/EWNGeneral.pdfVossen, P. 2004. EuroWordNet: a multilingualdatabase of autonomous and languagespecificwordnets connected via an Inter-Lingual-Index. Semi-special issue onmultilingual databases, IJL 17/2.97


Ontologías mixtas para la representación conceptual de objetos deaprendizajeHaliuska Hernández RamírezUniversidad Agraria de la Habana, Cubahaliuska@isch.edu.cuMaximiliano Saiz NoedaUniversidad de Alicante, Españamax@dlsi.ua.esResumen: En materia de aprendizaje virtual, son numerosos los recursos que existen y sealmacenan en repositorios. La tendencia hacia la estandarización de estos almacenes hacontribuido a mejorar la compartición, búsqueda y recuperación de la información, además defomentar la interoperabilidad entre las diferentes plataformas existentes. Los metadatos quesiguen estos estándares aportan información básicamente sintáctica, por lo que se hace necesariauna estructura semántica que la enriquezca. En este artículo se propone la representación delconocimiento vinculado a los Objetos de Aprendizaje (OAs) ubicados en un repositorio. Nuestraaproximación se basa tanto en el diseño de una ontología que describa la semántica existente enlos metadatos así como en la definición de una marco de trabajo sobre ontologías multilingües,relacionadas entre sí por una conceptualización interlingua que describa los dominios de losdiversos OAs existentes en los repositorios.Palabras clave: ontologías, e-learning, objetos de aprendizaje, ontología interlinguaAbstract: Lot of resources in virtual learning are stored in repositories. The tendency towardsstandarization of these repositories has improved information sharing, searching and retrievaland fomented the interoperability among existing platforms. The metadata esencially contributebasic syntactic information, so it is necessary a semantic structure to enrich Learning Objects(LOs) management into the repositories. In this paper, the knowledge representation related tothe LOs in the repository is proposed. Our approach is based in the design of an ontology todescribe metadata semantic and in the definition of a framework with multilingual ontologies todescribe different domains for the existing LOs. These domain ontologies can be linked oneeach other through an interlingua conceptualization.Keywords: ontologies, e-learning, learning objects, interlingua ontology1 IntroducciónEl incremento sustancial de información enInternet y la necesidad de aprovechar almáximo la gran cantidad de recursosdisponibles, han dado a la luz proyectos comola Web Semántica. Esta iniciativa ha estadomarcada por el uso de técnicas derepresentación del conocimiento, con elobjetivo de que los ordenadores, además derepresentar la información almacenada, seancapaces de entenderla y gestionarlainteligentemente. En este proyecto confluyen laInteligencia Artificial y las tecnologías web y seproponen nuevas técnicas y paradigmas para larepresentación del conocimiento quecontribuyan a la localización e integración derecursos a través de la www (Berners-Lee,2001). La web semántica se apoya en lautilización de ontologías como vehículo paracumplir este objetivo (Gruber, 1993).En la misma medida que la información enla Web se incrementa, también lo hacen losrecursos que pueden utilizarse en el sectoreducativo. El término “objeto de aprendizaje”(OA) ha surgido con la finalidad de compartirrecursos y reutilizarlos en el dominio del e-learning. Esta definición es aplicable a losmateriales digitales creados como pequeñaspiezas de contenido o de información (Wiley,2000) con el objetivo de que puedan serutilizados en diferentes escenarios educativos.Estos objetos actualmente se organizan enrepositorios y son descritos a través deestándares que contribuyen a lainteroperabilidad entre las diferentesISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Haliuska Hernández Ramírez, Maximiliano Saiz Noedaplataformas del dominio. Existen diferentesiniciativas de estándares para describir OAs(LOM, Dublin Core, IMS, SCORM, …). Aúnasí la gestión de objetos de aprendizaje dentrode los repositorios no es óptima sólo con laaportación sintáctica de los metadatos. Se hacenecesario incorporar una aportación semánticaque describa efectivamente a los OAs,metadatos y las relaciones OA-OA y OAmetadatos.De aquí que el uso de las ontologíasno se reduce sólo al ámbito de la WebSemántica sino que se ha extendido al dominiodel e-learning, dando lugar a numerosasiniciativas ontológicas que contribuyen a unaefectiva gestión tanto interna como externa delos OAs en los repositorios.Los repositorios actuales de OAs, tales comoMERLOT 1 , ARIADNE 2 , EDNA 3 y CAREO 4 ,proporcionan un soporte para albergar losobjetos y sus metadatos (aunque puedentambién almacenar sólo metadatos y unareferencia a la ubicación física del recurso). Enestos repositorios se garantiza una búsquedamás estructurada que la que se realiza a travésde la Web, aunque también permiten revisionescooperativas de los OAs, de modo que lacalidad de la información es cuestionada por losdiferentes usuarios del repositorio. Ladesventaja de estos almacenes es que carecen“de un modelo conceptual que establezca qué esun objeto de aprendizaje y qué descriptores demetadatos hay asociados a cada una de lasdiferentes conceptualizaciones” (Soto, García,Sánchez, 2006). La información que definen losdiferentes estándares es de propósitodescriptivo y no está orientada a ser procesadapor agentes de software, por lo que se dificultala generación de conocimiento y la autonomíade agentes que puedan interactuar en losdiferentes procesos de un repositorio(búsqueda, recuperación, etiquetado, etc.).Una de las iniciativas desarrolladas en estalínea es el proyecto LOR@ 5 , (Iriarte et al.,2006) que propone una arquitectura para el usode repositorios de OAs. Dentro de estaarquitectura se ha desarrollado el repositorio1 http://www.merlot.org/2 http://www.ariadne-eu.org/3 http://www.edna.edu.au/edna/page1.html4 http://careo.ucalgary.ca/5http://wiki.contenidos-abiertos.org/doku.php/uaes:universidad_de_alicante_espanaLoraServer y se han implementado otrasaplicaciones periféricas para la creación demetadatos, la indexación o la búsqueda de OAs.Una de las particularidades de esterepositorio es el uso del formato VirtuaMetaData (VMD) para describir los OAs que seincorporan a este almacén. VMD no es unestándar, sino un tipo de metadato genéricoque agrupa los diferentes estándares existentesmás empleados (IMS-MD, LOM, SCORM,IMS-LD, CanCore, Dublin Core). Lautilización de VMD permite la importación deOAs descritos en cualquier formato oincorporar nuevos objetos, así como laexportación de OAs descritos en el marcocualquiera de los estándares mencionados.A partir de este proyecto, en este artículo sepropone el modelado de una ontología para larepresentación de OAs en repositorios de tipoLOR@, además de la utilización de diferentesontologías de dominio multilingües quedescriben los principales conceptos y relacionesexistentes en los diversos dominios educativos.2 Propuesta de ontologías mixtas2.1 Ontologías educacionalesSe considera una ontología educacional acualquiera que pueda ser utilizada en laenseñanza basada en tecnologías Web.Podemos clasificar las ontologías educacionalesde la siguiente forma (Devedzic, 2006):• Ontología de dominio: describe losconceptos esenciales, relaciones y teorías delos diferentes dominios de interés.• Ontología de tareas: los conceptos yrelaciones que se incluyen en este tipo deontología pertenecen a los tipos deproblemas, estructuras, partes, actividades ypasos a seguir en el proceso de solución deproblemas.• Ontología para la estrategia de laenseñanza: provee instructores y actorescon la facilidad de modelar experiencias enla enseñanza, especificando el conocimientoy los principios de las diferentes accionespedagógicas y comportamientos.• Ontología de modelo de aprendizaje: seutiliza para construir modelos y es esencialpara los sistemas que representan escenariosde aprendizaje adaptativo.• Ontología de interfaz: especifica elcomportamiento adaptativo y las técnicas enel nivel de interfaz de usuario.100


Ontologías mixtas para la representación conceptual de objetos de aprendizaje• Ontología de comunicación: se utiliza en elintercambio de mensajes entre las diferentesplataformas, repositorios y servicioseducativos. Define la semántica en que sebasarán los mensajes, por ejemplo, elvocabulario de términos que se utilizarán enla comunicación.• Ontología de servicios educacionales:estrechamente relacionada con la ontologíade comunicación, está basada en OWL-S yproporciona medios para creardescripciones, procesables por losordenadores, de los servicios educacionales,de las consecuencias de la utilización deestos servicios y una representaciónexplícita de su lógica.En el presente trabajo se propone, por unlado, la definición de una ontología (no incluidaexplícitamente en la anterior clasificación)basada en VMD que describa los conceptos yrelaciones entre los metadatos. Por otro lado, yde acuerdo a esta clasificación, proponemos eluso de un conjunto de ontologías de dominio(desarrolladas en varias lenguas) querepresenten el conocimiento contenido en losdiversos OAs de un repositorio.2.2 Diseño de ontologías basadas enmetadatosEn los últimos años se han desarrolladodiversas iniciativas para la representaciónsemántica de metadatos orientadas a tareascomo la anotación automática o larecomendación de OAs. Entre estas propuestascabe citar el trabajo realizado por laUniversidad Nacional de Taiwan, Chung Kung,que propone un modelo de recomendación deOAs, etiquetados bajo el estándar SCORM,basado en métodos ontológicos (Tsai et al.,2006). Por otra parte resulta muy interesante lapropuesta del departamento de informática de laEscuela Superior de Electricidad, Francia. Estamuestra una herramienta semi-automática parala extracción de OAs a partir de páginas html yetiquetarlos bajo el estándar LOM (Doan,Bourda, Dumitrascu, 2006). Para ello se haceuso de una ontología que describe el estándar.Esta misma institución ha propuesto un sistemaeducacional basado en múltiples ontologías conel objetivo de facilitar el intercambio derecursos, basados en LOM, con otrasinstituciones (Doan, Bourda, 2006). Se haceuso también de la descripción semántica deLOM a través de una ontología. La Universidadde Belgrado ha desarrollado una arquitecturabasada en ontologías para recuperarinformación relevante para los OAs y losdiseños de aprendizaje (Jovanovi et al., 2006).Sus aportaciones principales son: una ontologíadedicada a capturar información del estadoactual de un OA dentro del diseño deaprendizaje (actividad de aprendizaje en que seutiliza, ejercicios, etc.) y una ontología basadaen el estándar IMS-LD.Cómo se puede apreciar, las aproximacionesdescritas se desarrollan en el marco de losdiferentes estándares existentes, en aras desolucionar las limitaciones semánticas en lagestión de OAs actualmente. Nuestra propuestatiene un objetivo más amplio, dado que estádirigida a repositorios heterogéneos de tipoLOR@ y, por tanto, la ontología basada enmetadatos que se propone describe lasrelaciones entre conceptos (comunes o no) delos estándares más utilizados en el campo del e-learning. La Figura 1 muestra un fragmento deesta ontología con algunos conceptos esencialesde VMD.2.3 Ontologias de dominios coninterlinguaUna de las principales motivaciones de estetrabajo es la necesidad de organizar el crecientevolumen de recursos desarrollados para el AulaVirtual de Español (AVE) del InstitutoCervantes. AVE es un entorno didáctico queofrece cursos para aprender español por Internety para el que se hizo necesaria una estructuraque almacenara y gestionara sus recursos.Los repositorios tipo LOR@, como Loraserver,no están dirigidos a un único tipo de recursos(como los que se requieren para la enseñanzadel español), sino que son capaces de gestionarOAs de diversas materias. Su arquitecturaabierta permite también el intercambio de OAsentre repositorios, lo que hace que usuarios dediversos países y lenguas puedan interactuarcon los OAs. Esto contribuye a que elrepositorio no sea sólo un almacén heterogéneode recursos, sino que pueda constar de OAs endiferentes lenguas. A pesar de esto Loraserver,al igual que los repositorios actuales, nodispone de un modelo semántico pararepresentar la información.101


Haliuska Hernández Ramírez, Maximiliano Saiz NoedaLearningObjectCompositeObjectUnit OfLearningGeneralDescriptionIdentifierCatalogEntryStructureLanguageTitleDescrptionKeywordMetadataMetadataShemaStatusVersionLifeCycleContributeRoleEntityDateMethodIdentifierIsVisbleOrganizationLearning DesignIdentifierIsVisibleLevelSequence-usedComponentMetadataShemaResourcesIdentifierRefTypeLearning ObjectiveConditionCriteriaAction word:taxonpathPrerequisiteActivityDescriptionCoverageEnviroment Activity RoleActivityStructureFeedbackDescriptionEsta formado por (IsFormedBy)Es un (Is_a)InformationFigura 1. Fragmento de ontología que describe metadatos de VMD y sus relacionesEs evidente que el uso de ontologíasofrecerá un entorno enriquecido para prestarservicios y gestionar la terminología decualquier materia. Esto contribuye a labúsqueda y recuperación de recursos, no sóloproporcionando acceso a los documentosespecíficos sino también ofreciendo sugerenciasrelativas a oros recursos potencialmentepertinentes para el tema de interés. Es por estoque nuestra iniciativa propone el uso deontologías de dominio para representar lasrelaciones entre los conceptos de las diversasáreas del conocimiento a las que pertenecen losOAs de un repositorio. Estas ontologías pueden,además, ser de naturaleza multilingüe ya queesto contribuye a una mejor representación delos OAs, enriqueciendo sobre todo su búsqueday recuperación. Esto se convierte en unafortaleza dentro del repositorio, sobre todo en ele-learning donde la información es másimportante que el idioma de representación.Para dar solidez a esta estructura ontológicamultilingüe, se propone la existencia de unaontología “puente” (fundamentada en launiversalidad del inglés como lengua) que sirvade enlace (interlingua) proporcionandorelaciones entre clases e instancias de lasdiferentes ontologías. Esta arquitectura, comoya se ha demostrado en otros recursossemánticos (Vossen, 2000), facilitará las tareasde recuperación, búsqueda y etiquetado deobjetos independientemente de la lengua. Apesar de lo ambicioso del planteamiento, no esnuestro objetivo el de crear nuevas ontologíasde dominio, sino más bien el de definir unmarco de interacción de ontologías multilingües(que podrían existir ya) a través de un módulointerlingua (ver Figura 2).Figura 2: Ejemplo de ontología interlingua parala enseñanza de la sintaxis en español102


nomdetcaneSNartFraseFRelsacchettoSVaggneroAPObelloPronnoundetdogsustdetperroNSartSPSNSentenceartOraciónORelbolsaVSSVadjnegroAPObellonomdetchienPronORel APPO PronPSbagadjblackbeautifulSNartPhrasePRelsacSPnoirSVadjbeauPronSPOntologías mixtas para la representación conceptual de objetos de aprendizaje2.4 Conexión metadatos-dominioAdemás de la definición de una ontologíabasada en los metadatos del estándar VMD yuna arquitectura multilingüe para las ontologíasde dominio, proponemos también la posibilidadde cooperación entre ambas representacionesconceptuales.Un ejemplo de la utilidad de esta acciónconjunta (metadatos y dominio) es el procesode etiquetado de OAs. Es posible automatizareste proceso desde la extracción de informacióna través del uso, por ejemplo, de palabras clavedefinidas en la ontología y presentes en losdocumentos html a etiquetar. Para estopodemos definir reglas que conjuntamente conla ontología permitan extraer la informaciónnecesaria para el etiquetado. Por ejemplo en:Coverage en VMD podría indicar que esteobjeto es útil en la enseñanza de laProgramación Orientada a Objetos.Por otro lado, y aunque hasta el momento nose ha profundizado en este tema, las ontologíasde dominio supondrían también una evidenteventaja en cualquier tarea de búsqueda yrecuperación multilingüe de objetos deaprendizaje en un repositorio, permitiendo laexpansión de las solicitudes (preguntas) asícomo la de las posibles respuestas.La Figura 3 muestra el esquema deinteracción y uso de las ontologías comentadas.Ontología VMDOntologías de DominioMultilingüese definen las siguientes etiquetas:• ExtractFromHtmlTag: extrae el texto quese encuentra en la etiqueta html definida.• MetaTagID: posiciona el texto extraído através de cualquier regla en la etiquetaequivalente en el documento XML delmetadato.• MatchMetaTag: busca en el documentohtml palabras que coincidan directamentecon los campos definidos en el estándar yextrae el texto a partir de la posición “Step”,después de que se encuentra la palabra.• MatchKeyword: Busca palabras claves ysitúa el texto extraído a partir de la posición“Step” en la etiqueta correspondiente en elXML del metadato.Por otro lado la ontología de dominiocolaboraría en este proceso aportandoinformación catalogada en los metadatos einferida a partir del contenido del documento.Por ejemplo, el campo Coverage describe elescenario óptimo de uso del objeto en cuestión.Así, en el supuesto caso en que se estécatalogando un documento relacionado con losconstructores y destructores en C++, es posibledeterminar a través de una ontología deldominio de la programación que el campoDocumentosheterogéneosmultilingüesEtiquetadoLoraServerOAsFigura 3: Papel de las ontologías en unrepositorio LOR@2.5 Metodología de diseñoBúsquedaRecuperaciónPara el diseño de cualquier ontología esnecesario contar con una metodologíaespecífica. Son muchas las propuestasexistentes. De entre ellas podemos destacaralgunas como la metodología Cyc (Lenat et al,1990), en la que primeramente se extraemanualmente el conocimiento común que estáimplícito en diferentes fuentes para después,cuando se tenga suficiente conocimiento en laontología, adquirir nuevo conocimiento comúnusando herramientas de procesamiento delenguaje natural o aprendizaje computacional.La Metodología de Uschold y King(Uschold et al.; 95) propone los siguientespasos para desarrollar ontologías: (1) identificarel propósito; (2) capturar los conceptos yrelaciones entre estos conceptos y los términos103


Haliuska Hernández Ramírez, Maximiliano Saiz Noedautilizados para referirse a estos conceptos yrelaciones; (3) codificar la ontología. Laontología debe ser documentada y evaluada, yse pueden usar otras ontologías para crear lanueva.En la metodología de Grüninger y Fox(Grüninger et al.; 95) el primer paso esidentificar intuitivamente las aplicacionesposibles en las que se usará la ontología. Luego,se utilizan un conjunto de preguntas en lenguajenatural, llamadas cuestiones de competencia,para determinar el ámbito de la ontología. Seusan estas preguntas para extraer los conceptosprincipales, sus propiedades, relaciones yaxiomas, los cuales se definen formalmente enProlog.En la metodología Kactus (Bernaras et al,1996) se construye la ontología sobre una basede conocimiento por medio de un proceso deabstracción. Kactus define los siguientes pasos(1) Especificación de la aplicación, (2) diseñopreliminar basado en categorías ontológicastop-level relevantes y (3) refinamiento yestructuración de la ontología.La metodología Methontology (Fernández-López, Gómez-Pérez, Jurista, 1997) permiteconstruir ontologías totalmente nuevas oreutilizar otras ontologías. El entorno incluye laidentificación del proceso de desarrollo de laontología donde se incluyen las principalesactividades (evaluación, conceptualización,configuración, integración, implementación,etc.), un ciclo de vida basado en prototiposevolucionados y la metodología propiamentedicha, que especifica los pasos a ejecutar encada actividad, las técnicas usadas, losproductos a obtener y su forma de evaluación.Esta metodología está parcialmente soportadapor el entorno de desarrollo ontológicoWebODE y propone las siguientes etapas:(1) especificación, (2) conceptualización, (3)formalización, (4) implementación y (5)mantenimiento.La metodología Sensus (Swartout et al,1997) es un enfoque top-down para derivarontologías específicas del dominio a partir degrandes ontologías. En esta metodología seidentifican un conjunto de términos semilla queson relevantes en un dominio particular. Talestérminos se enlazan manualmente a unaontología de amplia cobertura. Los usuariosseleccionan automáticamente los términosrelevantes para describir el dominio y acotar laontología Sensus. Consecuentemente, elalgoritmo devuelve el conjunto de términosestructurados jerárquicamente para describir undominio, que puede ser usado como esqueletopara la base de conocimiento.La metodología On-To-Knowledge (Staab etal., 2001) aplica ontologías a la informacióndisponible electrónicamente para mejorar lacalidad de la gestión de conocimiento enorganizaciones grandes y distribuidas. Estaincluye la identificación de metas que deberíanser conseguidas por herramientas de gestión deconocimiento y está basada en el análisis deescenarios de uso y en los diferentes papelesdesempeñados por trabajadores deconocimiento y accionistas en lasorganizaciones.La metodología Terminae (Aussenac-Gilleset al, 2002) aporta tanto una metodología comouna herramienta para la construcción deontologías a partir de textos. Se basa en unanálisis lingüístico de los textos, el cual serealiza mediante la aplicación de diferentesherramientas para el procesamiento del lenguajenatural. En particular se usan dos herramientas:(1) Syntex para identificar términos yrelaciones; y (2) Caméléon para identificar roleso relaciones. La metodología funciona comosigue. Mediante la aplicación de Syntexobtenemos una lista de posibles palabras yfrases del texto y algunas dependenciassintácticas y gramaticales entre ellas. Estosdatos se usan como entrada para el proceso demodelado junto con el texto original.La ontología basada en metadatos que sepropone en este artículo describirá lasrelaciones que se establecen entre los conceptosde VMD, donde están reflejados los estándaresLOM, SCORM, Dublin Core, CanCore, OAI,IMS-MD, e IMS-LD. Este último se dedica adescribir Unidades de Aprendizajes, o lo que eslo mismo: un OA más complejo dondeintervienen uno o más recursos y actividadeseducativas que responden a un diseño deaprendizaje determinado. La propuesta aquípresentada tomará como base la descripciónontológica realizada por Amorim (2006),basada en la especificación IMS-LD en nuestrapropuesta agregando nuevos las nuevasrelaciones que se establecen entre los conceptos104


Ontologías mixtas para la representación conceptual de objetos de aprendizajede IMS-LD y los de otros estándares. Por estasrazones hemos considerado utilizar para laimplementación de la ontología la metodologíaMethontology.En esta primera fase de diseño de laontología se han tenido en cuenta varioscriterios de acuerdo con algunos principios dediseño (Gruber, 1995); Bernaras et al., 1996);(Borgo et al., 1996) ;(Gómez-Pérez, Benjamins,1999). Por ejemplo, la claridad y objetividad,que significan que la ontología deberíaproporcionar el significado de los términosdefinidos al proporcionar definiciones objetivasy también documentación en lenguaje natural;la completitud, coherencia, modularidad, laextensibilidad monótona máxima, lo cualpermite la inclusión de nuevos términos sin quese afecten las definiciones existentes. Ladiversificación de jerarquías para aumentar lapotencia proporcionada por los mecanismos deherencia múltiple, también ha sido un aspecto avalorar en el diseño de la propuesta, junto conla minimización de la distancia semántica entreconceptos hermanos, esto significa que seagrupan los conceptos similares y serepresentan usando las mismas primitivas.Para la fase de implementación de laontología propuesta se ha valorado el lenguajeOWL. Una de las ventajas de este lenguaje essu fortaleza para describir las relaciones entreclases, propiedades, etc. Por ejemplo, se puedeespecificar en OWL si una propiedad essimétrica (Symetric), inversa de otra(InverseOf), si es equivalente(EquivalentProperty), si una clase es unaintersección (InterseccionOf) o una unión deotras (UnionOf), etc.3 ConclusionesLa representación ontológica de la informaciónrelativa a los OAs dentro de repositorios comoLoraServer constituye una alternativa para lamejora de servicios tales como la búsqueda,etiquetado, recuperación, etc. Esta semánticaincorporada es la base para que agentes desoftware puedan inferir conocimiento a partir delos axiomas declarados en las ontologías.Se ha presentado una arquitectura mixta quedefine una ontología orientada a laconceptualización de los metadatos procedentesde un conjunto de estándares para etiquetarobjetos de aprendizaje, junto con el uso de unaestructura multilingüe, encabezada por unaontología interlingua, que modelará elconocimiento de dominio contenido en dichosobjetos. La interacción de ambasrepresentaciones dotará a los procesos degestión y recuperación de OAs de unasemántica propia de repositorios inteligentes.A pesar de tratarse de una aproximación aúnpreliminar, estamos convencidos de que lasolvencia de las arquitecturas, estándares ymetodologías en que se basa, unido a la pocoexplorada semántica en objetos de aprendizaje,la hacen una propuesta interesante.Pretendemos, en las etapas inmediatamentesiguientes de este trabajo, definir enprofundidad las técnicas de recuperación deinformación desde las ontologías de dominioasí como las reglas de etiquetado a partir de laontología basada en metadatos.BibliografíaAmorim, R. R., Lama, M., Sánchez, E., Riera,A., Vila, X. A. 2006. A Learning DesignOntology based on the IMS Specification.Educational Technology & Society, 9 (1),pp. 38-57.Aussenac-Gilles, N., Biebow, B., Szulman, S.2002. Modelling the travelling domain froma NLP description with Terminae. Workshopon Evaluation of Ontology Tools, EuropeanKnowledge. Acquisition Workshop,Sigüenza, España.Bernaras, A., Laresgoiti, I., Corera, J. 1996.Building and Reusing Ontologies forElectrical. Network Applications.Proceedings of the European Conference onArtificial Intelligence (ECAI96), pp. 298-302.Berners-Lee, T., Hendler, J., Lassila, O. TheSemantic Web. Scientific American. Vol.284, n. 5. (May, 2001).Borgo, S., Guarino, N., Masolo, C. 1996.Stratified Ontologies: the case of physicalobjects. Proceedings of the Workshop onOntological Engineering. Held inconjunction with ECAI96. pp. 5-15.Budapest.105


Haliuska Hernández Ramírez, Maximiliano Saiz NoedaDevedziz, V. 2006. Semantic Web andeducation. Springer’s Integrated Series inInformation Systems.Doan, B., Bourda, Y. 2006. An EducationalSystem Based on Several OntologiesProceedings of the Sixth InternationalConference on Advanced LearningTechnologies (ICALT'06), pp. 179-183Doan, B., Bourda, Y., Dumitrascu,V. 2006 ASemi-Automatic Tool using Ontology toExtract Learning Objects. Proceedings ofthe Sixth International Conference onAdvanced Learning Technologies(ICALT'06), pp. 92-93Fernández-López M, Gómez-Pérez A, Juristo N1997 METHONTOLOGY: FromOntological Art Towards OntologicalEngineering. Spring Symposium onOntological. Engineering of AAAI. StanfordUniversity, California, pp. 33–40.Gómez-Pérez, A., Benjamins, V.R. 1999.Overview of knowledge sharing and reusecomponents: ontologies and problemsolvingmethods. In V.R. Benjamins,B.Chandrasekaran, A.Gómez-Pérez,N.Guarino and M.Uschol.d (Eds),Proceedings of the IJCAI-99 workshop onOntologies and Problem-Solving Methods,Stockholm, Sweden.Gruber, T. R. 1993.A Translation Approach toPortable Ontologies. Knowledge Acquisition.Vol. 5, n. 2, pp. 199-220.Gruber, T. R. 1995. Towards Principles of theDesign of Ontologies Used for KnowledgeSharing. International Journal of HumanComputer Studies, 43. pp. 907-928.Gruninger, M., Fox, M.S. 1995. The logic ofenterprise modelling. In J. Brown & D.O.Sullivan, Eds. Reenginering the Enterprise.pp. 83-98. London: Chapman & Hall.Iriarte, L., Marco, M., Morón, D., Pernías, P.2006. Architecture Oriented towards themanagement of Learning ObjectsRepositories (LOR@). Proceedings of theSixth International Conference on AdvancedLearning Technologies (ICALT'06), pp. 255-256.Jovanovi, J., Knight, C., Gaševi, D., Richards,G. 2006. Learning Object Context on theSemantic Web. Proceedings of the SixthInternational Conference on AdvancedLearning Technologies (ICALT'06), pp. 669-673.Lenat, D.B., Guha, R.V. 1990. Building largeknowledge-based systems. Addison-WesleyPublising Company, Inc. 1990.Soto, J., García, E., Sánchez, S. RepositoriosSemánticos para Objetos de Aprendizaje.2006. Expolearning2006 Barcelona, España.Swartout, B., Patil, R. Knight, K., Russ, T.1997. Toward distributed use of large-scaleontologies. In AAAI-97 Spring SymposiumSeries on Ontological Engineering.Tsai, K., Kai, T. Chiu, Che, M., I, T. 2006. ALearning Objects Recommendation Modelbased on the Preference and OntologicalApproaches. Proceedings of the SixthInternational Conference on AdvancedLearning Technologies (ICALT'06). pp. 36-40Uschold, M., King, M. 1995. Towards aMethodology for Building Ontologies.Workshop on Basic Ontological Issues inKnowledge Sharing.Vossen, P. 2000. EuroWordNet: a MultilingualDatabase withWordNets in 8 languages. TheELRA Newsletter, 5(1):9–10.Wiley, D. 2000. (Ed), Connecting learningobjects to instructional design theory: Adefinition, a metaphor, and a taxonomy. TheInstructional Use of Learning Objects:Online Version. Association forInstructional Technology .106


Acceso a la información bilingüe utilizandoontologías específicas del dominio biomédicoFrancisco Carrero GarcíaJosé María Gómez HidalgoManuel de Buenaga RodríguezUniversidad Europea de Madrid28035 Villaviciosa de Odón, Madrid, SPAIN{franscisco.carrero,jmgomez,buenaga}@uem.esJacinto MataManuel Maña LópezUniversidad de HuelvaEscuela Politécnica Superior21071 Palos de la Frontera, Huelva, Españamanuel.mana@diesia.uhu.es, mata@uhu.esResumen: Unos de los enfoques más prometedores en la Recuperación de InformaciónCroslingüe es la utilización de recursos léxico-semánticos para realizar una indexaciónconceptual de los documentos y consultas. Hemos seguido esta aproximación para proponer unsistema de acceso a la información para profesionales sanitarios, que facilita la preparación decasos clínicos, y la realización de estudios e investigaciones. En nuestra propuesta se conecta ladocumentación de los pacientes (la historia clínica), en castellano, con la información científicarelacionada (artículos científicos), en inglés y castellano, usando para ellos recursos de grancobertura y calidad como la ontología SNOMED. Se describe asimismo como se gestiona laconfidencialidad de la información.Palabras clave: Recuperación de Información Croslingüe, información biomédica, ontologías,recursos léxicos y semánticos, Unified Medical Language System (UMLS), SNOMED, MedicalSubject Headings (MeSH)Abstract: One of the most promising approaches to Cross-Language Information Retrieval isthe utilization of lexical-semantic resources for concept-indexing documents and queries. Wehave followed this approach in a proposal of an Information Access system designed formedicine professionals, aiming at easing the preparation of clinical cases, and the developmentof studies and research. In our proposal, the clinical record information, in Spanish, is connectedto related scientific information (research papers), in English and Spanish, by using highquality and coverage resources like the SNOMED ontology. We also describe how we haveaddressed information privacy.Keywords: Cross-Language Information Retrieval, biomedicine, ontologies, lexical andsemantic resources, Unified Medical Language System (UMLS), SNOMED, Medical SubjectHeadings (MeSH)1 IntroducciónLa posibilidad de acceder, utilizando diferentesmedios y desde cualquier lugar, al granvolumen de información que se genera cada díaen el mundo es el elemento que caracteriza,cada vez más, la época actual. En este marco deinnumerables ventajas, también cobra un pesocreciente el problema general de la sobrecargade información, y se hace cada vez mayor lanecesidad del desarrollo de técnicas que ayudena los usuarios a organizar, buscar y comprenderla información (Buenaga, Fernández-Manjón yFernández-Valmayor, 1995).En esta situación, general, se encuentratambién, con especial relevancia, el ámbitomédico: los investigadores y profesionales engeneral de este ámbito, necesitan de forma cadavez más crucial, herramientas que faciliten elacceso a la información adecuada a susnecesidades (Hersh y Bhupatiraju, 2003).Como agravante de la situación descrita, lainformación se encuentra disponible enmúltiples idiomas, y no siempre la másrelevante se encuentra disponible en el idiomamaterno del usuario, lo que no impide que seacomprensible para el mismo. Es necesariosuperar las barreras del lenguaje para entregaral usuario información en varios idiomas, anteISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña Lópezconsultas suyas en uno solo. Ya no se trata deun entorno multilingüe, sino de recuperacióncroslingüe – Cross-Language InformationRetrieval ó CLIR (Grefenstette, 1998). Unentorno de trabajo tan retador exige solucionesnuevas, que pasan por la utilización creciente derecursos léxico-semánticos o de sistemas detraducción de gran cobertura y calidad.En este artículo presentamos una propuestade método de acceso a la información para elprofesional sanitario, que se basa en asociardistintos tipos de información (especialmenteclínica y científica) en dos idiomas. El modoprevisto de trabajo es la presentación deinformación científica en inglés y castellano,relacionada de manera conceptual con lahistoria clínica del paciente objetivo. Estapropuesta se basa en la utilización de unaontología multilingüe específica del dominiobiomédico para la representación de losdocumentos textuales, concretamenteSNOMED (Spackman, Campbell y Côté,1997). La asociación de conceptos deSNOMED a los documentos objetivo se abordacomo una tarea de categorización automática(Sebastiani, 2002), y la asociación entredocumentos de varios idiomas emplea elModelo del Espacio Vectorial (Salton, 1989)usando como vocabulario de indexación losconceptos de la ontología.El trabajo aquí descrito se encuentraenmarcado dentro de los proyectos deinvestigación SINAMED e ISIS 1 (Maña et al.,2006), cuyo objetivo es desarrollar nuevosmecanismos de acceso a la informaciónmediante la aplicación de técnicas de análisisdel lenguaje humano, en el ámbito de labiomedicina.Hemos organizado este trabajo del modosiguiente. En la sección 2 se presenta elesquema general de acceso bilingüe, y sepresenta brevemente el aspecto funcional de1 SINAMED (Diseño e integración de técnicasde generación de resúmenes y categorizaciónautomática de textos para el acceso a informaciónbilingüe en el ámbito biomédico) está parcialmentefinanciado por el Ministerio de Educación y Ciencia(TIN2005-08988-C02-01). ISIS (Sistema Inteligentede Acceso Integrado a la Información de HistorialClínico del Paciente y Documentación MédicaRelacionada), ha sido parcialmente financiado por elMinisterio de Industria (FIT-350200-2005-16).Este trabajo ha contado también con lafinanciación de la Comunidad Autónoma de Madrid,bajo la red de I+D MAVIR (S-0505/TIC-0267)nuestra propuesta. En la siguiente sección sedescriben y comparan los recursos léxicosemánticosmás adecuados para nuestro trabajo.En la sección 4 se introducen las fuentes deinformación utilizadas en nuestro enfoque,junto con las técnicas actuales y las quenosotros hemos empleado hasta el momentopara tratar la información confidencial. Acontinuación presentamos los elementostécnicos más relevantes de nuestra propuesta,finalizando este trabajo con una presentación denuestros siguientes pasos.2 Acceso bilingüe a la informaciónbiomédica2.1 La Recuperación de InformaciónCroslingüeLa globalización de la información,especialmente a través de Internet, exige que lossistemas de Recuperación de Información seancapaces de trabajan en entornos multilingües.Un entorno multilingüe es aquél en el que elusuario puede trabajar en varios idiomas, tantoa la hora de plantear consultas como a la deexaminar resultados. Por ejemplo, algunosbuscadores Web como Google, permiten larecuperación de resultados en múltiples idiomasante una consulta en español.Hay que resaltar que esta recuperación serealiza identificando los documentos en los queaparecen los términos de la consulta,independientemente del idioma de losdocumentos. Por ejemplo, la consulta “Java”podría arrojar resultados en múltiples idiomas,al tratarse de un nombre propio. Sin embargo,la consulta “lenguajes de programaciónorientados a objetos” difícilmente arrojaríaresultados que no fuesen en castellano. Demanera adicional, los resultados se puedentraducir al idioma nativo del usuario, usandosistemas de traducción automática.Obviamente, este tipo de sistemas ofrecenfuncionalidades multilingües limitadas. En losúltimos años hemos asistido a un crecienteinterés por parte de investigadores ydesarrolladores en los sistemas de Recuperaciónde Información Croslingüe – CLIR(Grefenstette, 1998). En este tipo de sistemas,se ofrece la posibilidad de superar de unamanera efectiva las barreras del idioma,recuperando documentos en múltiples idiomasante consultas en uno solo, de manera eficaz.Siguiendo el ejemplo anterior, un sistemacroslingüe recuperaría documentos en108


Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédicocastellano e inglés ante la consulta “lenguajesde programación orientados a objetos”, con lamisma efectividad que si la consulta también sehubiese expresado en inglés, como “objectorientedprogramming languages”.Si Internet constituye un marco de referenciapara los sistemas de recuperación croslingüe,debido a la abundancia de información en unagran cantidad de idiomas (por ejemplo,Wikipedia), no menos lo es el dominio de labiomedicina. No sólo recursos como MedLineindexan y ofrecen el acceso a medio millón denuevas referencias al año 2 , sino que losmédicos se ven enfrentados de una maneradiaria a la tarea de preparar casos de pacientesen base a información científica frecuentementeen otros idiomas. Si la necesidad de sistemas derecuperación croslingüe se hace patente alexaminar la búsqueda en la Web, con más razónexiste en dominios como el de la biomedicina.En la próxima sección presentamos el esquemade una aplicación de acceso a la informaciónbilingüe (inglés-castellano) para el dominio dela biomedicina, con múltiples aplicaciones paramédicos, investigadores y estudiantes.2.2 Una propuesta de sistema Bilingüede Acceso a la InformaciónNuestra experiencia en los proyectosSINAMED e ISIS, incluye la observación delas fuentes de información que utilizan losmédicos en su trabajo diario, en entornos comoel Hospital de Fuenlabrada. También hemostrabajado con investigadores biomédicos, y conestudiantes de distintas disciplinas médicas(fisioterapia, enfermería, etc.) en el marcodocente de la Universidad Europea de Madrid.De dichas observaciones se desprende que losmédicos, científicos y estudiantes trabajan coninformación cuando menos bilingüe, a la horade preparar casos, o elaborar informes ytrabajos técnicos.Con el fin de proporcionar a estos usuariosun acceso más sofisticado y efectivo a lainformación relevante para su trabajo, hemosideado un sistema de acceso a la informaciónbilingüe que permite relacionar el documentobase de trabajo, el historial clínico, con lainformación científica relevante al mismo. Eneste sistema, se presenta un documentoprincipal de trabajo (típicamente la historia2Según los “Key MEDLINE ® Indicators”(NLMa, 2007), se han agregado, por ejemplo,606.000 referencias en 2005, y 623.089 en 2006.clínica de un paciente objetivo, en español), yse permite acceder a información científicarelacionada con el mismo (usualmente,informes científicos aparecidos en revistas debiomedicina, en inglés y castellano). Nuestrosistema tiene tres tipos posibles de usuarios:• Los médicos en ejercicio, al preparar uncaso clínico de un paciente concreto.• Los investigadores cuando están analizandoun caso arquetípico.• Los estudiantes de ciencias biomédicascuando están preparando un caso teórico.En los tres casos, el usuario precisa accedera la información científica más relevante para eldiagnóstico y la toma de decisiones sobrepruebas o tratamientos del paciente, bien demanera teórica o práctica. En los últimos doscasos, el historial clínico se ha de presentarconvenientemente anonimizado 3 , para evitarque el usuario tenga acceso a datos protegidospor las leyes vigentes de protección deinformación 4 . El tema de la anonimización, sinser el centro de este trabajo particular, sediscute con detalle en la sección 5.La información científica mencionada puedeencontrarse en múltiples idiomas 5 . El problematipo para un potencial usuario de nuestrosistema es encontrar información científica eninglés y castellano, en relación con un historialen castellano. El elemento clave de nuestrapropuesta es el modo de realizar esta conexiónentre documentación médica en castellano y enotros idiomas, que tratamos en las próximassecciones.2.3 Técnicas de RecuperaciónCroslingüeCon el fin de enmarcar adecuadamente nuestrotrabajo, se hace necesario discutir aunque sea3 La anonimización es el proceso por el cual seeliminan o sustituyen todos los datos de un archivode manera que no sea posible, en ningún caso,reconstruir la información original, identificadodirecta o indirectamente al sujeto o sujetosmencionados.4En el caso de la legislación nacional, elprecepto más relevante es la Ley Orgánica 15/1999,de 13 de diciembre, de Protección de Datos deCarácter Personal (frecuentemente designada comola LOPD).5 Por ejemplo, en el portal PubMed (NLMb,2007), se proporciona acceso a más de 33.000revistas científicas en 60 idiomas, en muchos casoscon el texto de los artículos parcial o totalmentedisponible en la Web.109


Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña Lópezbrevemente los enfoques generales para laRecuperación de Información Croslingüe.Existen múltiples taxonomías de métodos deeste tipo, usualmente organizados en términosde los recursos utilizados para la tarea:diccionarios bilingües, córpora paralelos ocomparables, etc. (Eichmann, Ruiz ySrinivasan, 1998; Gonzalo et al. 1998; Schaubley Sheridan, 1997; Volk et al. 2003). Porconveniencia, nosotros tomamos comoreferencia la clasificación realizada en elcapítulo 4 de (Grossman y Frieder, 2004). Endicho capítulo se presentan, tres enfoquesbásicos para la recuperación croslingüe:1. Traducción de consultas. La consulta setraduce a todos los idiomas objetivo y serecupera independientemente en cada uno deellos, fusionando los resultados en una solalista. Para ello, se utilizan recursos léxicosmultilingües (diccionarios bilingües,tesauros, listas bilingües de términosgeneradas automáticamente, etc.).2. Traducción de documentos. De maneraalternativa a la anterior, se traducen todoslos documentos al idioma de la consulta y serecupera en dicho idioma. Una ventajaimportante sobre la traducción de consultases que se dispone de más texto que en laconsulta, y es de esperar que la traducciónsea más precisa.3. Utilización de una representación internapara consulta y documentos. En esteenfoque, los documentos y la consulta serepresentan de una manera conceptual,típicamente independiente del idioma. Elvocabulario de representación no estáformado ya por los términos de losdocumentos, sino por los conceptosindependientes del idioma a los que dichostérminos hacen referencia. Identificados losconceptos a los que hace referencia unaconsulta, se recuperan los documentosindexados bajo ellos, independientemente desu idioma.Los dos primeros métodos, no estandoexentos de problemas que se escapan delámbito de este artículo, son con diferencia losdominantes 6 . El tercer método claramenteadolece de dos problemas:6 En los artículos y libros citados previamente, eltercer enfoque prácticamente ni se menciona. Porotra parte, en la taxonomía de Grossman y Frieder(2004), este tercer enfoque está también basado en la• La práctica inexistencia de recursos lexicosemánticosde suficiente cobertura y calidadpara un entorno genérico de recuperación,e.g. los motores de búsqueda en la Web.• Las limitaciones en la eficacia de lossistemas de desambiguación de términos asignificados y conceptos, que es tambiénuno de los principales problemas en lacalidad de los sistemas de traducciónautomática.Sin embargo, cada vez existen más recursosdel tipo requerido (aunque, desde luego, no dela cobertura necesaria), siendo quizá uno de losmás representativos la base de datos léxicaEuroWordNet (Gonzalo et al., 1998).Justamente en este trabajo se presenta cómoutilizar la componente independiente del idiomade EuroWordNet, el InterLingual Index (ILI),para realizar una recuperación croslingüe, de lamanera más inmediata: usando los conceptosdel ILI como elementos de indexación oíndices. Sin embargo, la limitada cobertura noinglesa de EuroWordNet, junto con la bajaefectividad de la desambiguación necesaria paraidentificar el concepto asociado a cada término,dificultan enormemente su implantaciónpráctica y efectiva.Sin embargo, existe un número creciente derecursos eventualmente utilizables enRecuperación de Información Croslingüe enbiomedicina. En la próxima sección discutimosalgunos de estos recursos y cómo se estánutilizando. Por otra parte, el tipo de informacióncon la que trabajamos en nuestra propuesta,permiten abordar los problemas dedesambiguación con perspectivas de alcanzar laefectividad necesaria para que la recuperaciónsea precisa. Discutimos estas fuentes deinformación en la sección 4, para describir conmás detalle nuestra propuesta en la 5.3 Recursos biomédicos y uso en CLIREn esta sección nos centramos en los tresrecursos que, tras un análisis detalladoconducido en las primeras fases del proyectoSINAMED, hemos considerado que se tratan delos tres de los más relevantes y utilizados enrecuperación de información, especialmentecroslingüe. Estos recursos son SNOMED, losMeSH y el UMLS.traducción, pero nosotros nos hemos permitidoreinterpretarlo para acomodar nuestro razonamiento.110


Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédico3.1 SNOMED-CTSNOMED-CT (Systematized Nomenclature ofMedicine Clinical Terms®) es una extensaterminología clínica desarrollada de maneraconjunta por el NHS Connecting for Health y elCollege of American Pathologists (SNOMEDInternacional, 2007).La terminología SNOMED-CT cubreenfermedades, hallazgos clínicos yprocedimientos, y ayuda a realizar indexación,almacenamiento, recuperación y agregación dedatos clínicos de forma consistente. Para ello,permite estructurar y gestionar por ordenadorlos registros médicos, reduciendo lavariabilidad en la manera en que se puedenadquirir, utilizar y codificar los datos necesariospara el cuidado clínico de los pacientes y lainvestigación.Sus elementos básicos son:• Conceptos: representan una unidad mínimade significado.• Jerarquías: compuestas por categorías deprimer nivel y sus correspondientessubcategorías.• Relaciones: las de tipo “es_un” permitenenlazar conceptos con jerarquías; lasrelaciones de atributos conectan conceptosentre jerarquías.• Descripciones: términos o nombresasociados a un concepto.La última versión se compone de más de308.000 conceptos organizados en 19 categoríasjerárquicas de primer nivel. Además, contienemás de 770.000 descripciones y más de 924.000relaciones.Existe una versión en español de SNOMED-CT que mantiene el diseño técnico, laarquitectura, el contenido (tablas de conceptos,descripciones y relaciones, tablas de relacioneshistóricas, referencias cruzadas con la CIE,etc.), y la documentación técnica relacionada.3.2 MESHLos Medical Subject Headings (MeSH) son untesauro desarrollado por la Biblioteca Nacionalde Medicina de los Estados Unidos (NLMc,2007). Se compone de una serie de términosasociados a descriptores, dispuestos en unaestructura jerárquica que permite realizarbúsquedas con diversos niveles deespecificidad.Los descriptores de MeSH se organizan dedos maneras distintas: la primera es una listaalfabética de descriptores con las respectivasreferencias cruzadas de sinónimos y términosrelacionados; la segunda es una clasificaciónjerárquica que agrupa a todos los descriptoresen 16 categorías, que se subdividen a su vez ensubcategorías con un mayor nivel deespecificidad.Estos árboles de descriptores no constituyenuna clasificación exhaustiva de las materias, yse utilizan como guía para las personasencargadas de asignar categorías a documentos.En su última versión, MeSH dispone de22.997 descriptores, así como de más de151.000 conceptos suplementarios(Supplementary Concept Records) recogidos enun tesauro separado. Existen también más de136.000 referencias cruzadas que ayudan adeterminar el descriptor de MeSH másapropiado para cada caso.La principal aplicación de MeSH seencuentra en su uso por parte del NLM paraindexar artículos de más de 4.800 de lasprincipales revistas biomédicas para la base dedatos MEDLINE/PubMED (NLMa, 2007).3.3 UMLSEl UMLS (Unified Medical Language System)es un sistema desarrollado por la BibliotecaNacional de Medicina de los Estados Unidos.Está compuesto por un meta-tesauro, una redsemántica y un lexicón especializado,distribuidos con una serie de herramientas quefacilitan su uso (NLMd, 2007).El meta-tesauro es una base de datosmultilingüe y multipropósito que contieneinformación sobre conceptos biomédicos yrelacionados con la salud, incluyendo susdiferentes nombres y sus relaciones.La red semántica proporciona unaclasificación consistente de todos los conceptosrepresentados en el meta-tesauro, además de unconjunto de relaciones entre dichos conceptos.Todos los conceptos del meta-tesauro tienenasignado al menos un tipo semántico de la redsemántica.El lexicón especializado pretende ser unlexicón general que incluye términosbiomédicos. La mayoría de los términos queaparecen en los nombres de conceptos del metatesauroaparecen igualmente en el lexicón.Es de reseñar que UMLS se nutre demúltiples lexicones y ontologías, entre los qurese encuentran tanto MeSH como SNOMED. Dealguna manera, el UMLS es un “super-sistema”111


Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña Lópezque incluye a los anteriores y proporciona unaestructura común a estos y otros recursos.3.4 Utilización en CLIRLos recursos léxico-semánticos anteriores hansido concebidos desde un principio con el fin deproporcionar modos de acceso más unificados yefectivos a la información biomédica. Enconjunto, se han convertido en los vocabularioscontrolados de indexación de la informaciónbiomédica, permitiendo a los usuarios no sólobúsquedas con texto libre a diversos canales deinformación, sino también búsquedasconceptuales que han demostrado su efectividaden la práctica 7 (Lowe y Barnett, 1994).Con el fin de sistematizar toda la literaturamédica, y no sólo la inglesa, han idoapareciendo versiones de los recursos endistintos idiomas, y de manera natural, se hanempleado en el desarrollo de sistemas einvestigaciones multilingües y croslingües. Porsu relación con nuestro trabajo, destacamos lossiguientes:• En (Hersh y Donohoe, 1998) se presenta elsistema SHAPIRE Internacional, unaadaptación del sistema de recuperaciónconceptual SHAPIRE a entornosmultilingües. Este sistema permite recuperarconceptos de UMLS en inglés ante consultasen múltiples idiomas, incluyendo elcastellano y el alemán. Al no devolvertextos, no se puede hablar de unaherramienta de recuperación de textos plena,pero si incluye su componente fundamental,que es el acceso a los conceptosindependientes del idioma a partir de textos(consultas) en múltiples idiomas.• En (Volk et. al, 2002) se describe el enfoquede indexación conceptual usando UMLS quese realiza en el marco del proyecto deinvestigación europeo MUCHMORE, con elfin de evaluar la viabilidad técnica deconstruir sistemas de CLIR basados enindexación conceptual interlingüe. El énfasises en el nivel de procesamiento del lenguajenecesario para alcanzar niveles razonablesde calidad en la indexación, que losexperimentos permiten afirmar que sonsuficientes.7 Una búsqueda en PubMed por “UMLS andinformation and retrieval” devuelve más de 200resultados, correspondientes a informes científicosen los que UMLS se utiliza de alguna forma en unsistema de Recuperación de Información.• En (Marko, Schulz y Hahn, 2005) sepresenta el sistema MorphoSaurus, querealiza recuperación croslingüe usandoUMLS para la indexación interlingüe, y serealiza un experimento que compara laefectividad de dicho enfoque con unobasado en traducción de consultas,resultando favorable al primero laevaluación.Estos informes, junto con la naturalezaespecífica de la información con la que trabajanuestro sistema (y que discutimos acontinuación), nos permite concluir que nuestroenfoque es viable y muy prometedor entérminos de efectividad.4 Fuentes de informaciónLa información médica es voluminosa y deextrema complejidad. Uno de los factores conuna mayor repercusión en la heterogeneidad dellos contenidos médicos es la diversidad defuentes. Cada fuente (escritos científicos, basesde datos de resúmenes, bases de datosestructuradas o semi-estructuradas, serviciosWeb o historiales clínicos de pacientes) tienediferentes elementos y aspectos, como orejemplo, la existencia o no de una estructuraexterna del documento, la existencia de textolibre con datos estructurados (tablas conresultados clínicos) o la longitud de losdocumentos. Estas diferencias en dominio,estructura y escala, dificultan el desarrollo desistemas robustos e independientes que facilitenel acceso a este tipo de contenidos. Estadificultad se agrava con la naturalezamultilingüe de la información, y es a lo quepretendemos dar respuesta con nuestrapropuesta.En nuestra propuesta, se conectan dos tiposde información que se discuten a continuación.Dado que las historias clínicas contieneninformación sensible desde un punto de vista dela confidencialidad, también se discute suanonimización.4.1 Documentación médicaConsiderando por ejemplo, los artículoscientíficos médicos, hay miles de revistascientíficas en inglés, y el problema crece siconsideramos otros lenguajes y fuentes.Medline, la base de datos bibliográfica másimportante y consultada en el dominiobiomédico constituye un ejemplo principal.Medline almacena referencias a artículos derevistas desde 1966 hasta la actualidad,112


Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédicocontiene más de 13 millones de referencias, conun crecimiento de entre 1.500 y 3.500referencias por día. Esta gran cantidad deinformación hace difícil a los expertos sacarpartido de toda la información publicada.En los sistemas desarrollados en nuestrosproyectos, para ser probados y evaluados sobreusuarios finales, y para el que nos ocupa enparticular, hemos trabajado sobre conjuntosrepresentativos de esta información. Enconcreto se ha seguido un criterio paraseleccionar un conjunto de revistasconsiderando el lenguaje (castellano e inglés),relevancia de la revista al proyecto (estábamosespecialmente interesados en neumonía,enfermedades del corazón y alumbramientos) yacceso libre al texto completo. Teniendopresentes estas guías se seleccionaron: BritishMedical Journal, Journal of the AmericanAssociation y las revistas en castellanoArchivos de Bronconeumología y Anales dePediatría. Estas revistas publican artículos dediferentes clases, entre los que hemosseleccionado: scientific papers (trabajos deinvestigación originales), clinical reviews(revisiones de literatura disponible en un tema),practice (escritos breves que están centrados enhistorias de casos específicos), técnicas yprocedimientos, y noticias.4.2 Historiales clínicosEl historial clínico del paciente se define comoel conjunto de documentos (datos, análisis,diagnósticos y otros tipos de información) queson generados a lo largo del proceso asistencialdel paciente. El sistema de registros en papelclásico presenta toda una serie de limitaciones(información poco legible, desorganización,ausencia de consistencia, accesibilidad limitada,garantía incierta de confidencialidad, etc.) quepueden mejorarse con la utilización de registroselectrónicos integrados.Alguna de las ventajas del historial clínicoelectrónico son: mejor accesibilidad a lainformación y mejora en la confidencialidad,homogenización de datos, visión completa delpaciente, coordinación de tratamientos médicos,etc.En sistemas desarrollados en nuestrosproyectos, hemos trabajado con informaciónanonimizada en Español del hospital (Hospitalde Fuenlabrada) que formaba parte delconsorcio, de dos tipos: notas de evolución(9413 notas de evolución de 3666 historialesclínicos diferentes – una media 2,6 notas porhistorial) e informes de alta (49 informescompletos redactados al abandonar un pacienteel hospital). En puntos siguientes se dan másdetalles sobre este tipo de fuente en inglés.4.3 Tratamiento de informaciónconfidencialLos historiales clínicos almacenan informaciónque puede ser de gran utilidad en lainvestigación médica. Sin embargo, como loshistoriales contienen también informaciónconfidencial estos deben ser tratados con ladebida cautela. La Ley 16/2003 de Cohesión yCalidad del Sistema Nacional de Saludgarantiza la confidencialidad e integridad de losdatos en el intercambio de información entre losorganismos del Sistema Nacional de Salud.En general, el uso por terceros deinformación médica que incluya datospersonales del paciente requiere el permisoexpreso de este. Cuando la información que sedesea tratar se encuentra almacenada de ciertotiempo, puede ser imposible conseguir estepermiso. En este caso, la anonimización de lainformación clínica mantiene el nivel deconfidencialidad deseado a la vez que permiteel acceso a la información (Kalra et al., 2006).La anonimización del historial médico de unpaciente consiste en eliminar la informaciónque puede identificar a las personasinvolucradas en el proceso asistencial; tanto elpaciente como los profesionales sanitarios quelo atendieron. La legislación estadounidense, adiferencia de la europea, define en el HealthInformation Portability and Accountability Act(HIPAA) (US Government, 1996), loselementos que deben ser excluidos en elproceso de anonimización. De entre ellos,destacamos los que suelen aparecer en unhistorial clínico: nombre y apellidos de lospacientes, representantes legales y familiares;nombres y apellidos de los médicos; númerosde identificación; números de teléfonos, fax ybuscapersonas; nombres de hospitales;direcciones y localizaciones geográficas;fechas. La relevancia, cada vez mayor, de estatarea está estimulando la organización decongresos, talleres y competiciones como i2b2:Challenges in NLP for Clinical Data: DeidentificationChallenge (i2b2 NCBC, 2007).Dentro del proyecto ISIS (Buenaga et al.,2006) se trabajó con dos tipos de documentospertenecientes al historial clínico del pacienteque, en el marco de dicho proyecto, fueronproporcionados por el Hospital de Fuenlabrada.113


Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña Lópezvoid exprBasica():{}{ ((nombre()()?| …|firmado() }void firmado():{}{()*()*()?nombre()()?()?()?|(blancos())*()?()*()?()?()*doctor()|()?()?()*()?()? ()*fin_firmado()}Figura 1: Ejemplo de regla sintáctica para la eliminación de nombres de pacientes y médicos.Estos tipos de documentos son las notas deevolución clínica y los informes de alta.Las notas de evolución clínica son informesescritos por los médicos acerca de los cambiosque se producen durante el proceso asistencial.El Hospital de Fuenlabrada proporcionó 9.413notas de evolución pertenecientes a 3.666historiales distintos, lo que supone una mediade 2,6 notas por historial. El tratamiento de estainformación requería un proceso previo deanonimización, ya que, contenían nombres depacientes y médicos. La aproximación elegida,en este caso, fue la de analizar manualmenteunas 100 notas de las que se extrajeronalrededor de 120 reglas sintácticas. Mediante laaplicación de estas reglas se consiguió eliminar,de forma automática, 393 nombres de médicosy pacientes. Finalmente, se eliminaron otros 30nombres de forma manual.En la Figura 1 se muestra un ejemplo de unade las reglas sintácticas utilizadas. Esta reglapermite la identificación del nombre delpaciente después de la palabra “PACIENTE:” ola del nombre del médico después de laaparición de la expresión “FDO Dr.”.Los informes clínicos de alta constituyen unresumen del proceso asistencial del pacienteque redactan los médicos al finalizar dichoproceso. El Hospital de Fuenlabradaproporcionó 49 informes de diferentes servicioshospitalarios: urgencias, urgencias pediátricas,cirugía general y digestiva, pediatría,maternidad, traumatología, medicina interna ymedicina intensiva. Para la anonimización deestos informes se llevó a cabo un procesosimilar al descrito para las notas de evolución.De esta manera, se eliminó cualquierinformación personal sobre datos de lospacientes y los médicos que los trataron.A pesar de que la técnica empleada consigueanonimizar ambos tipos de documentos deforma efectiva, en la actualidad, la estrategiamás utilizada es la aplicación de aprendizajeautomático. El problema de la anonimización sepuede plantear como una tarea dereconocimiento de entidades nombradas (REN),donde las entidades que se desean identificarson los datos con carácter confidencial. Este esel enfoque seguido en todos los trabajospresentados al i2b2. Los participantes en lacompetición dispusieron de una colección deentrenamiento formada por 671 informes dealtas escritos en inglés que incluyen 14.309entidades con información de carácter personal.En [Guo et al., 2006] los autores hacen uso deSupport Vector Machines sobre características anivel de token y otras específicas para cada tipode entidad a reconocer. Otra aproximacióndistinta es la que se propone [Aramaki et al.,2006], donde además de características localesemplean otras dos de carácter global:información de las frases previa y siguiente, yconsistencia de etiquetas de clasificación en elinforme y en el corpus. También, en unacomponente de nuestro proyecto SINAMEDque hemos evaluado de forma preliminar sobrelos datos de I2B2 (para Smoking Challenge),hemos conseguido unos resultados muycercanos a la media construyendo elclasificador únicamente utilizando atributosléxicos y morfológicos, sobre la arquitecturaque estamos desarrollando y que describimosen el punto siguente (en concreto un valor parala f-measure de 0,765 frente a 0,795 de lamedia). El uso de estos atributos léxicos ymorfológicos en combinación con los conceptosde Snomed podrían ayudarnos a obtenermejores resultados.5 Enfoque técnico de nuestra propuestaNuestra propuesta está basada en los elementosanteriormente descritos. Se propone eldesarrollo y evaluación de un sistema de accesoa la información para profesionales y114


Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédicoHISTORIALSNOMED.SPSNOMED.ENARTÍCULOSCIENTÍFICOS(INGLÉS)ARTÍCULOSCIENTÍFICOS(CASTELLANO)Conceptos paraun textoBiyección deconceptosFigura 2: Método de conexión de del historial con la información científica relacionada vía e.g.SNOMED.estudiantes sanitarios, en el que se relacione lainformación básica de trabajo (la historiaclínica), típicamente en castellano, con lainformación científica apropiada, típicamenteen inglés y castellano. El objeto de este sistemaes simplificar la preparación de casos,investigaciones o trabajos, al evitar la necesidadde realizar búsquedas explícitas de informacióncientífica, al tiempo que realizar esta búsquedaimplícita con mayor eficacia que el propiousuario.El esquema de asociación de las fuentes deinformación se presenta de forma gráfica en lafigura 2. En dicha figura se observa como loshistoriales médicos se asocian a conceptos dee.g. la ontología de SNOMED en castellano,cuyos conceptos están a su vez asociados a losde SNOMED en inglés de una manera cuasibiyectiva.Por medio de los conceptos enespañol, se recuperan documentos científicos enespañol. También se recuperan documentoscientíficos en inglés usando estos conceptos eninglés, que han sido también asociados demanera automática con dichos documentos.Los pilares del sistema son:• La utilización de técnicas de recuperacióncroslingüe basadas en indexación conceptualinterlingüe, avalada por otros trabajos, y queen nuestro caso se simplifica al no tener quedesambiguar consultas sino fragmentos deinformación más extensos (los historialesclínicos). Inicialmente, y en vista del interésdemostrado por los médicos que actuaráncomo usuarios del sistema, se está utilizandola ontología SNOMED.• La utilización de técnicas de categorizaciónautomática (Sebastián, 2002), y no dedesambiguación, para la asignación deconceptos de SNOMED a los documentosobjetivo.Nosotros entendemos que en gran medida,los conceptos de SNOMED y en general delUMLS son más categorías temáticas queconceptos semánticos de grano fino como losde e.g. EuroWordNet, por lo que se pretendeevitar una aplicación término a concepto, ypromover una sistema texto a categoría. Lossistemas de categorización basados enaprendizaje han alcanzado niveles deefectividad comparables a los de profesionaleshumanos entrenados. Nuestra experiencia eneste sentido es prolongada 8 , y avala nuestrasperspectivas.Gran parte de la información médicacientífica se haya clasificada de acuerdo a losvocabularios conceptuales estándarmencionados anteriormente. Sin embargo, lainformación de los historiales médicos no estáclasificada de esta manera. Esto supone unalimitación, dado que nos proponemos realizarla clasificación usando sistemas basados enaprendizaje, que dependen de la existencia dematerial manualmente clasificado para su8 Véase como guía e.g. (Gómez et al., 2004;Gómez, Buenaga y Cortizo, 2005).115


Francisco Carrero García, José María Gómez Hidalgo, Manuel de Buenaga Rodríguez, Jacinto Mata, Manuel Maña Lópezentrenamiento. Lo habitual en estas situacioneses utilizar una técnica de bootstrapping, queconsiste en clasificar un conjunto semilla dedocumentos, usarlos para entrenar el sistema,clasificar con él un segundo grupo dedocumentos, y revisar manualmente lasdecisiones menos seguras. Repetidoiterativamente, este proceso permite construiruna colección de datos de una magnitudsuficiente de manera efectiva. Una vez obtenidaesta colección, el sistema se entrena sobre ella,alcanzando niveles de calidad adecuados en susdecisiones sobre nuevos documentos.6 Conclusiones y trabajo futuroEn este artículo, se ha presentado una visión decómo conseguir el acceso a informes científicosen inglés y castellano a partir de un historial encastellano, utilizando para ello unacategorización automática respecto a unaontología bilingüe. También se han discutidolas diferencias fundamentales entre dos de lasontologías más relevantes en el ámbitobiomédico: SNOMED y MESH. Se handescrito las fuentes de información mássignificativas en el marco del problema,considerando el aspecto fundamental de laconfidencialidad de la información médica queincluye datos de carácter personal. Parasolventar este problema, se ha expuesto lasolución utilizada sobre dos colecciones dedocumentos proporcionadas por el Hospital deFuenlabrada y se han discutido solucionesdistintas sobre colecciones de informes de altaen inglés.En el futuro planificamos integrar en unsistema, la categorización de los documentos, larecuperación de los mismos y la anonimizaciónde los informes médicos. Este sistema debepermitir un acceso personalizado en función delperfil del usuario. Se han concebido tres perfilesde usuario para el sistema: médicos en atenciónhospitalaria, investigadores médicos y alumnosde titulaciones relacionadas con la biomedicina.Con la ayuda de un número significativo deusuarios de cada perfil, se diseñarán lasinterfaces adecuadas.Una vez completada esta primera fase,hemos planificado la realización deimplementaciones más efectivas de los distintosclasificadores que forman el sistema. Estasnuevas implementaciones se evaluarán sobrecolecciones de referencia, como la utilizada eni2b2 para la anonimización.Finalmente, integraremos los clasificadoresen la herramienta y se llevarán a caboexperimentos que permitan validar la utilidaddel sistema con cada uno de estos perfiles.BibliografíaAramaki, E., Miyo, K. AutomaticDeidentification by Using Sentence Featuresand Label Consistency. Proceedings of theWorkshop on Challenges in NaturalLanguage Processing for Clinical Data,2006.Buenaga, M., Fernández-Manjón, B.,Fernández-Valmayor, A, “InformationOverload at the Information Age”. Collis,B., Davies, G. (eds) “Innovating AdultLearning with Innovative Technologies”,Ed. Elsevier, 1995.Buenaga, M., Maña, M.J., Gachet, D., Mata, J.,2006. The SINAMED and ISIS Projects:Applying Text Mining Techniques toImprove Access to a Medical DigitalLibrary. LNCS: Research and AdvancedTechnology for Digital Libraries, vol. 4172,pp. 548-551.Eichmann, D., Ruiz, M.E., y Srinivasan, P. ,1998. Cross-Language Information Retrievalwith the UMLS Metathesaurus. SIGIR'98 -21st International ACM SIGIR Conferenceon Research and Development inInformation Retrieval, Melbourne, Australia,August 24 – 28.Gómez, J.M., Cortizo, J.C., Puertas, E., Ruíz,M., 2004. Concept Indexing for AutomatedText Categorization. In Natural LanguageProcessing and Information Systems: 9thInternational Conference on Applications ofNatural Language to Information Systems,NLDB 2004, Salford, UK, June 23-25, 2004,Proceedings, Lecture Notes in ComputerScience, Vol. 3136, Springer, pp. 195-206.Gómez, J.M., Buenaga, M. de, Cortizo, J.C.,2005. The Role of Word SenseDisambiguation in Automated TextCategorization. Montoyo, A.; Muñoz, R.;Métais, Elisabeth (Eds.), Natural LanguageProcessing and Information Systems: 10thInternational Conference on Applications ofNatural Language to Information Systems,NLDB 2005, Alicante, Spain, June 15-17,Proceedings, Lecture Notes in ComputerScience, Vol. 3513, Springer, pp. 298-309.116


Acceso a la información bilingüe utilizando ontologías específicas del dominio biomédicoGonzalo, J., Verdejo, F., Peters, C. y Calzolari,N., 1998. Applying EuroWordNet to Cross-Language Text Retrieval. Computers and theHumanities, 32, 2-3, 185-207.Grefenstette, G., (ed.) 1998. Cross-languageinformation retrieval. The Kluwerinternational series on information retrieval2, Kluwer Academic.Grossman, D.A., Frieder, O., 2004. InformationRetrieval: Algorithms and Heuristics.Second Edition. Springer.Guo, Y., Gaizauskas, R., Roberts, I.,Demetriou, G., Hepple, M., 2006.Identifying Personal Health InformationUsing Support Vector Machines.Proceedings of the Workshop on Challengesin Natural Language Processing for ClinicalData.Hersh, W.R., Donohoe L.C,, SAPHIREInternational: a tool for cross-languageinformation retrieval. Proceedings of the1998 AMIA Annual Symposium, 1998, 673-677.Hersh, W. y Bhupatiraju, R.T., 2003. TRECGenomics Track Overview. NIST SpecialPublication: SP 500-255 (The Twelfth TextRetrieval Conference), pp. 14-23.i2b2 (Informatics for Integrating Biology andthe Bedside) National Center for BiomedicalComputing (NCBC), 2007. Challenges inNatural Language Processing for ClinicalData. URL: https://www.i2b2.org/NLP/.Acceso: 28 de enero de 2007.Kalra, D., Gertz, R., Singleton, P., Inskip,H.M., 2006. Confidentiality of personalhealth information used for research. BritishMedical Journal, vol. 333, pp. 196-198.Lowe, H. y Barnett, G. 1994. Understandingand Using the Medical Subject Headings(MeSH) Vocabulary to Perform LiteratureSearches. Journal of the American MedicalAssociation,271(14):1103–1108.Marko, K., Schulz, S., Hahn, U., 2005.MorphoSaurus--design and evaluation of aninterlingua-based, cross-language documentretrieval engine for the medical domain.Methods of Information in Medicine, 44(4),pp. 537-45.NLM (National Library of Medicine), 2007.Key MEDLINE ® Indicators. URL:http://www.nlm.nih.gov/bsd/bsd_key.html.Acceso: 28 de enero de 2007.NLM (National Library of Medicine), 2007.PubMed. URL: http://www.pubmed.gov/.Acceso: 28 de enero de 2007.NLM (National Library of Medicine), 2007.Medical Subject Headings. URL:http://www.nlm.nih.gov/mesh/. Acceso: 28de enero de 2007.NLM (National Library of Medicine), 2007.Unified Medical language System. URL:http://www.nlm.nih.gov/research/umls/.Acceso: 28 de enero de 2007.Salton, G. 1989. Automatic text processing: thetransformation, analysis and retrieval ofinformation by computer. Addison-Wesley,Reading, US.Schauble, P. y Sheridan, P., 1997. Cross-Language Information Retrieval (CLIR)Track Overview. The Sixth Text REtrievalConference (TREC-6), National Institute ofStandards and Technology (NIST), SpecialPublication 500-240.Sebastiani, F. 2002. Machine Learning inAutomated Text Categorization. ACMComputing Surveys, 34(1):1-47.SNOMED International, 2007. SNOMED-CT.URL: http://www.snomed.org/snomedct.Acceso: 28 de enero de 2007.Spackman, K.A., Campbell, K.E, Côté, R.A.,1997. SNOMED-RT: a referenceterminology for health care. Proceedings ofthe AMIA Annual Fall Symposium, pp. 640-4.US Government, 1996. Health InformationPortability and Accountability Act.Washington, D.C.: US Government PrintingOffice.Volk M, Ripplinger B, Vintar S, Buitelaar P,Raileanu D, Sacaleanu B., 2002. Semanticannotation for concept-based cross-languagemedical information retrieval. InternationalJournal of Medical Informatics, 67 (1-3), pp.97-112.117


Mejora de los sistemas multimodales mediante el uso de gananciade informaciónManuel Carlos Díaz GalianoUniversidad de JaénCampus Las Lagunillas, Edif. A3. E-23071mcdiaz@ujaen.esArturo Montejo RaezUniversidad de JaénCampus Las Lagunillas, Edif. A3. E-23071amontejo@ujaen.esMª Teresa Martín ValdiviaUniversidad de JaénCampus Las Lagunillas, Edif. A3. E-23071maite@ujaen.esL. Alfonso Ureña LópezUniversidad de JaénCampus Las Lagunillas, Edif. A3. E-23071laurena@ujaen.esResumen: En este trabajo se discute la utilización de la ganancia de información (IG) parareducir y mejorar la información textual incluida en los sistemas de recuperación deinformación multimodal. Además se muestran los distintos experimentos realizadoscombinando esta técnica de reducción con la mezcla de información visual y textual, paracomprobar que la información textual consigue mejorar los sistemas multimodalesconvencionales.Palabras clave: Recuperación de Información Multimodal, Ganancia de Información, Corpusmédicos multimodalesAbstract: This paper discusses the use of information gain (IG) to reduce and improve thetextual information included in multi-modal information retrieval systems. Furthermore, anumber of experiments are described that combine this reduction technique with a visual- andtextual-information merge. These show that the textual information manages to improveconventional multi-modal systems.Keywords: Multimodal Information Retrieval, Information Gain, Medical Multimodal Corpus1 IntroducciónLa ingente cantidad de información disponibleelectrónicamente en cualquier formato pone demanifiesto la necesidad de desarrollar técnicasque permitan acceder a dicha información deuna manera eficiente. Actualmente, lainformación disponible electrónicamente tiendea ser cada vez más multimodal, incluyendocualquier tipo de información. La adición deimagen y sonido a los sistemas informáticossuponen un gran avance tecnológico desde elpunto de vista del usuario puesto que lacomunicación humana es intrínsecamentemultimodal (incluye sonidos, textos,fotografías, imágenes en movimiento…) (Lewiset al, 2006). Sin embargo, sería un error pensarque simplemente el tener más información,aunque esta información sea multimodal, puederesolver los problemas de acceso a la misma demanera eficiente. Todo lo contrario, si nodisponemos de sistemas que sean capaces derealizar una recuperación eficaz, no importarála calidad de la información disponible puestoque no seremos capaces de acceder a ellaaunque esté ahí.Los sistemas de recuperación deinformación visual o sistemas de recuperaciónde imágenes basados en contenido, han sidodenominados de diversas formas: sistemasCBIR (Content Based Information Retrieval),CBVIR (Content Based Visual InformationRetrieval) o QBIC 1 (Query by imagen content),este último fue el nombre que IBM dio a suprimer sistema implementado en los años 90.Un sistema CBIR es una aplicación que buscadentro de una colección de imágenes aquellasque son semejantes o que tienen un contenidosimilar a una imagen dada como consulta. Que1 http://wwwqbic.almaden.ibm.com/ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña Lópezdichos sistemas sean basados en contenidosignifica que la búsqueda se realiza basándoseen las características y el contenido de laimagen y no en otro tipo de informaciónañadida manualmente, como por ejemplo eltítulo de la imagen o palabras clave 2 . Laprimera vez que se utilizó el término CBIR fuepor Kato (1992), para describir susexperimentos donde realizaba una recuperaciónvisual basándose en los colores y las formas delas imágenes.Actualmente, están generando bastanteinterés sistemas en los que además dealmacenar imágenes se incluye cierto textoasociado a dichas imágenes (meta-datos). Es elcaso, por ejemplo, de los expedientes médicosen los que una radiografía puede tener asociadauna información textual relativa al historialclínico del paciente, al comentario de unespecialista sobre la radiografía, informaciónsobre el tratamiento propuesto al paciente…Otro ejemplo sería una colección de fotografíascon comentarios sobre las mismas. Lasfotografías pueden ser cuadros de un museo,fotografías asociadas a noticias en un periódicoo catálogos de productos de cualquier tipo. Unamanera de recuperar información en este tipo desistemas podría incluir la recuperación visualpor una parte, la recuperación textual por otra, yfinalmente, una mezcla de resultados parciales(visuales y textuales) que persigan laoptimización de la respuesta dada.Un ejemplo práctico de la utilización de unsistema mixto (CBIR+IR), lo tenemos en eltrabajo diario de un médico. Éste posee casosclínicos de sus pacientes. Dichos casos estáncompuestos por textos descriptivos del caso eimágenes que ilustran la dolencia. Con unsistema CBIR, ayudado por un sistema IR,como el que se muestra en la Figura 1, elmédico podría utilizar una imagen de unadolencia (por ejemplo, una radiografía) yobtener información de casos similares a dichadolencia. Por lo tanto, la recuperación seríatanto visual como textual, ya que los casosestán compuestos tanto por información textualdel caso como por imágenes.Cabe pues plantearse que una recuperacióneficiente del texto puede ayudar a mejorar lacalidad de los sistemas multimodales engeneral. El texto puede beneficiarse de lasimágenes y viceversa. De hecho, así se pone demanifiesto en distintos foros y conferenciasrealizadas en los últimos años (Clough et al.,2006, Declerck et al., 2004, Müller et al., 2006).En una colección con gran cantidad demetadatos nos encontramos con la problemáticade elegir aquellos metadatos que son de mayorutilidad y desechar aquellos que pueden añadirinformación no relevante (ruido) en nuestroBuscar imágenessimilaresRecuperar loscasos de dichasimágenesCasos ClínicosMezclarimágenesy casosclínicosObtenciónde lasimágenes delos casosmásrelevantesRecuperar los casosde dichas imágenesCasos ClínicosFigura 1: Ejemplo de utilización de un sistema mixto CBIR + IR2 http://en.wikipedia.org/wiki/CBIR120


Mejora de los sistemas multimodales mediante el uso de ganancia de informaciónsistema. La ganancia de información es unatécnica a través de la cual podemos seleccionaraquellos metadatos que aportan mayorinformación al sistema ignorando aquellos queno sólo no aportan información alguna, sinoque en ocasiones incluso introducen ruido ypueden distorsionar la respuesta del sistema.En este trabajo se propone el uso de laganancia de información como técnica paramejorar la calidad del corpus textual asociado auna colección de documentos que representanexpedientes médicos. Una mejora del corpustextual implica una mayor eficacia en larecuperación de este tipo de información, lo querepercute directamente en la eficacia delsistema multimodal global.El resto de este artículo se organiza de lasiguiente manera. En primer lugar, se hace unabreve introducción a la ganancia deinformación, indicando su formulación y susprincipales aplicaciones. A continuación sedescribe la colección de documentos que se hautilizado para realizar los experimentos. En elapartado 4 se explica cómo se ha utilizado laganancia de información para seleccionar lasetiquetas con mayor información sobre lacolección de documentos multimodales. En elapartado 5, se presentan los experimentosrealizados sobre la colección multimodal asícomo los resultados obtenidos. Por último, semuestran los resultados obtenidos y sepresentan las conclusiones junto con un avancesobre la orientación de los trabajos futuros quedan continuidad a esta investigación.2 Ganancia de InformaciónLa Ganancia de Información (Information Gain– IG) es una medida basada en la entropía de unsistema, es decir, en el grado de desorden de unsistema (Shannon, 1948). Esta medida nosindica cuánto se reduce la entropía de todo elsistema si conocemos el valor de un atributodeterminado. De esta forma, podemos conocercómo se relaciona el sistema completo conrespecto a un atributo, o lo que es lo mismo,cuánta información aporta dicho atributo alsistema.La fórmula para calcular la IG es lasiguiente:IG(C|E) = H(C) − H(C|E) (1)donde• IG(C|E): es la ganancia de informaciónde la etiqueta o característica E,• H(C): es la entropía del sistema• H(C|E): es la entropía relativa desistema conocido el valor de la etiquetaE.La entropía del sistema nos indica el gradode desorden del mismo y viene dada por lasiguiente fórmula:H(C)=|C|−∑i= 1p(ci ) 2 p(ci)log (2)donde p(c i ) es la probabilidad del valor i.La entropía relativa se calcula de la siguientemanera:H(C | E)=| E||C|⎛ ⎞ (3)= ∑ p(e j ) ⎜ − ∑ p(ci|e j ) log 2 p(ci|e j ) ⎟j= 1 ⎝ i= 1⎠donde p(e i ) es la probabilidad del valor i para lacaracterística e, y p(c i |e j ) es la probabilidad de c irelativa a e jLa principal aplicación de la IG es laselección de características. Por lo tanto, es unbuen candidato para la selección de aquellosmeta-datos que son útiles para el dominio en elque se usa la colección.La IG se ha empleado en multitud deestudios (Quinlan, 1986), la mayoría de ellos declasificación. Algunos ejemplos son lacategorización de textos (Text Categorization –TC) (Yang y Pedersen, 1997), aprendizajeautomático (Machine Learning – ML)(Mitchell, 1996) o detección de anomalías(Anomaly Detection – AD) (Lee y Xiang,2001).Nosotros partimos de una colecciónmultimodal que representa informes médicosconsistentes en a un conjunto de imágenesmédicas, y a cada una de ellas se asociainformación textual mediante diferentesetiquetas (meta-datos) algunas de las cuales noaportan apenas información. Por ejemplo, estees el caso de la etiqueta LANGUAGE, ya queesta etiqueta contiene el mismo valor para todala colección. Con la finalidad de depurar ymejorar la calidad del corpus textual, hemoscalculado la ganancia de información de lasetiquetas para poder realizar una selección deaquellas que aporten una información másdiscriminante.3 Descripción de la colecciónmultimodalPara realizar los experimentos se ha utilizado lacolección suministrada por la organización de la121


Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña Lópezcompetición CLEF (Cross Language EvaluationForum) 3 en la tarea concreta sobre recuperaciónde imágenes médicas (Müller et al., 2006). Estatarea se conoce como ImageCLEFmed 4 . Lacolección de documentos proporcionada paraesta subtarea está formada por 4 subcoleccionesde datos: CASImage, Pathopic, Peir y MIR, eincluyen unas 50,000 images.Cada subcolección se organiza en “casos”(véase Figura 2). Un caso está formado por unao varias imágenes (dependiendo de lacolección) y un conjunto de anotaciones enformato texto asociadas a dicha imagen. Lasanotaciones están marcadas con etiquetas yconstituyen los metadatos de la colección.Algunos casos incluyen también otras imágenesrelacionadas con el caso. Por ejemplo, se puedetener una imagen de una radiografía de unfemur, y asociada a esta imagen disponer deotras que muestren secciones del mismo femur,una resonancia magnética, una fotografía, etc.La colección CASImage 5 contiene unas8.725 imágenes agrupadas en 2.076 casos. Estacolección está compuesta de imágenes deescáner, rayos x, ilustraciones, fotografías ypresentaciones. El 20% de los casos está eninglés y el resto en francés. La colección MIR(Mallinckrodt Institute of Radiology) 6 contiene1.177 imágenes de medicina nuclear repartidasen 407 casos. Cada caso contiene anotacionesen inglés. Los casos de la colección PEIR(Pathology Education Instructional Resource) 7sólo contienen una imagen por caso. Dichacolección contiene 32.319 imágenes con susrespectivos casos anotados en inglés. Lainformación sobre las imágenes es muy escasa,aunque está bien clasificada en campos. Lacolección PathoPIC 8 contiene 7.805 imágenesde patologías. Al igual que la colección PEIR,existe una sola imagen por caso, aunque cadacaso está anotado en dos idiomas, alemán einglés. El idioma original de los casos es elalemán, por lo que las anotaciones en inglés sontraducciones de dichos casos.Para generar la colección textual se utilizaun fichero índice que permite determinar quéimágenes y anotaciones textuales pertenecen acada caso 9 . Las anotaciones textuales están enformato XML y la mayoría se encuentranescritas en inglés, sin embargo, el 80% de lasubcolección CASImage está etiquetada enfrancés. Esto implica que antes de preprocesar3349On the frontal and lateral chest x-rays, perivascular hazinessis visible with a ground glass and diffuse nodularinfiltrate.Metadatosdel casoAcute eosinophilic pneumoniaPatient with a fever and respiratory insufficiencysince 5 days.The diagnosis was based on a bronchoscopy with bronchoalveolarlavage, demonstrating eosinophilia > 25%, as well as the absence ofparasites or any other pathogen.…ImágenesFigura 2: Ejemplo parcial de un caso de la colección CASImage3 http://www.clef-campaign.org/4 http://ir.ohsu.edu/image/5 http://www.casimage.com6 http://gamma.wustl.edu/home.html7 http://peir.path.uab.edu8 http://alf3.urz.unibas.ch/pathopic/intro.htm9 Para más información de la organización de lacolección consultar la página del CLEF(http://ir.ohsu.edu/image/2005protocol.html) .122


Mejora de los sistemas multimodales mediante el uso de ganancia de informaciónla colección completa es necesario realizar latraducción automática de las anotaciones delfrancés al inglés. Para ello se ha utilizado untraductor automático a través de Internet.Concretamente, se ha utilizado el traductor onlineReverso 10 . La colección Pathopic contieneanotaciones en inglés y en alemán pero elcorpus es paralelo (las mismas anotaciones eninglés están también en alemán). En este caso,simplemente se han ignorado las anotaciones enalemán y sólo se han incorporado a la coleccióncompleta las anotaciones en inglés. Algunoscasos (aunque muy pocos) no contienenninguna anotación. La calidad de los textos delas colecciones varía de una subcolección aotra, e incluso dentro de la misma subcolección.Se considera que por cada imagen se tieneun documento textual con las anotaciones sobreel caso. Si un caso tiene más de una imagenasociada, el texto del caso se repite tantas vecescomo imágenes contenga, tal y como se muestraen la Figura 3. De esta manera, se genera lacolección textual completa con todos losdocumentos de cada una de las subcolecciones.Tomando como ejemplo de partida el casode la Figura 2, la descomposición se realizaríade acuerdo al esquema mostrado en la Figura 3.4 Selección de etiquetasPara depurar y mejorar la calidad de lacolección de documentos, se ha aplicado laganancia de información con el fin de permitirla selección de las mejores etiquetas y eliminaraquellas que no aportan apenas información.Para ello, se ha calculado la IG para cada unade las etiquetas de cada subcolección. Puestoque cada subcolecciónCASImage, Pathopic, Peir y MIR tiene unconjunto de etiquetas diferente, la IG se calculaen el ámbito de cada subcolección,independientemente del resto. Si tomamos laformula (1), C sería el conjunto de casos y E elconjunto de posibles valores de la etiquetaXML de nombre E.Para calcular el valor de IG, se calcula laentropía del conjunto de casos C como:H(C)= −= −|C|∑i= 1|C|∑i= 11log|C |p(c ) log2i21=|C |p(ci−log2)=1|C |(4)Y la entropía del conjunto de casos Ccondicionada por la etiqueta E como:3349On the frontal andlateral chest x-rays, perivascularhaziness is visible with a groundglass and diffuse nodularinfiltrate.Acute eosinophilicpneumonia…Case3349_En.xml 13187.jpg 13188.jpg3349On the frontal andlateral chest x-rays, perivascularhaziness is visible with a groundglass and diffuse nodularinfiltrate.Acute eosinophilicpneumonia…13187.xml3349On the frontal andlateral chest x-rays, perivascularhaziness is visible with a groundglass and diffuse nodularinfiltrate.Acute eosinophilicpneumonia…13188.xmlFigura 3: Extracción de la anotación textual de cada imagen10 http://www.reverso.net123


Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña LópezH(C | E)==|E|∑= −| Ce| ⎛ |C|j ⎜ 1∑⎜−|C | i= | Ce⎝j|j | Ce|j 1log 2|C | | Cj= 1 1| C e∑i= 1ejlog||21| Cej⎞⎟⎟=|⎠(5)donde C ej es el subconjunto de casos en C quetienen el valor e j en la etiqueta E. El valor de e jes el conjunto de palabras que forman dichaetiqueta (sin considerar el orden de laspalabras). Conociendo la entropía del sistema yla entropía condicionada podemos componer laecuación final de la siguiente manera:IG(C | E)== −log21+|C || C e |j∑i= 1| Cej|C ||log21| Cej|(6)Se calcula la ganancia de información paracada una de las etiquetas en cada una de lascolecciones. Una vez que cada etiqueta tieneasociada su IG, se ordenan utilizando este valorcomo referencia. A continuación, la colecciónfinal se crea seleccionando aquellas etiquetasque tienen los valores de IG más altos. Noobstante, existen etiquetas dentro de lacolección (como por ejemplo el campoidentificador ID) con un valor de IG muy alto ycuyo contenido es poco representativo, ya quedifiere enormemente para cada caso y elnúmero de términos que contiene es muypequeño. Por lo tanto, antes de ordenar yseleccionar las mejores etiquetas, se eliminanaquellas cuya frecuencia media de palabras enla subcolección sea inferior a un umbral. Deesta forma, una colección generada utilizando elcontenido del 100% de la etiquetas con mejorIG contendrá, no obstante, menos etiquetas (ypor lo tanto, menos texto) que una coleccióncon todas la etiquetas.5 Experimentos y resultadosEl objetivo principal que se persigue esdemostrar que los resultados obtenidos con uncorpus en el que se han filtrado aquellasetiquetas que aportan poca información (esdecir, con una IG baja) son mejores que cuandose utiliza el corpus completo. Para ello se hanrealizado experimentos utilizando diferentenúmero de etiquetas seleccionadas.Concretamente, se han tomado etiquetas con lamayor IG de 10 en 10 por ciento sobre el total,empezando en el 10% hasta el 100% de lasetiquetas. También se han realizadoexperimentos con una colección que utilizatodas las etiquetas (sin aplicar el filtro porfrecuencias comentado anteriormente).Además de la colección multimodal, laorganización del CLEF también pone adisposición de los participantes 25 consultascompuestas por una o varias imágenes y por untexto asociado.5.1 Casos base visual y textualPara poder analizar las mejoras que el sistemahíbrido propuesto pudiera aportar, se hanrealizado dos casos experimentales que sirvende base: un caso basado únicamente en lasimágenes, y otro en la información textual.Como caso base visual se ha tomado elresultado obtenido para cada consulta utilizandoexclusivamente un sistema CBIR (es decir, sintener en cuenta el texto sino únicamentehaciendo uso de la imagen). Para ello, se hanutilizado las listas de resultados suministradapor la organización del CLEF para cada una delas 25 consultas. Estas listas (una por consulta)se obtienen como resultado al presentar unaimagen a un sistema de recuperación deimágenes denominado GIFT 11 (GNU ImageFinding Tool). Se trata de un sistema CBIR queusa 4 características de imagen para realizar larecuperación (Squire et al., 2000). El resultadoobtenido tras una consulta con una imagen alsistema GIFT consiste en una lista de imágenesordenadas según su valor de relevancia conrespecto a la imagen de consulta.Como caso base textual se considera elresultado obtenido por cada consulta utilizandoel texto de la misma sobre un sistema derecuperación de información textual. El sistemautilizado es LEMUR 12 . Este es un sistemamultiplataforma desarrollado como parte delProyecto LEMUR, una colaboración entre losdepartamentos de Informática de lasuniversidades de Massachussets y CarnegieMellon. Dicha herramienta permite el filtrado yla indexación de grandes coleccionesdocumentales y la recuperación de informaciónen dichas colecciones, utilizando una granvariedad de modelos de recuperación. Elresultado obtenido tras una consulta a LEMURcon el texto de cada una de las 25 consultas es1112http://www.gnu.org/software/gift/http://www.lemurproject.org/124


Mejora de los sistemas multimodales mediante el uso de ganancia de informaciónuna lista de documentos ordenados por su valorde relevancia.5.2 Expansión de las consultastextualesPara mejorar los resultados de los casos base seha utilizado la información textual disponiblede cada caso y aplicando un método deretroalimentación. De este modo, hemosexpandido las consultas originales con el textoasociado a las 4 primeras imágenes recuperadascon el sistema GIFT. El texto utilizado pararealizar la expansión depende de la coleccióndonde se realiza la recuperación de informacióntextual (10%, …, 100% o todas).5.3 Mezcla de resultados textuales yvisualesAdemás de los casos base textual y visual, sehan realizado 3 tipos de experimentos:• Solo texto y GIFT: La forma más sencillade incorporar información visual alresultado final consiste en mezclar el casobase textual con el caso base visual dandodistintos pesos a los valores de relevancia(RSV) de ambos casos (Figura 4). Lafórmula sería la siguiente:Consulta VisualSistema CBIR(GIFT)Lista de imágenesrelevantes(List visual )Mezclar ambas listas(RSV text · α) + (RSV visual · β)Lista de imágenesrelevantes(List final )Show mephotographs ofbenign ormalignant skinlesionsConsulta TextualSistema IR(Lemur)Lista de imágenesrelevantes(List text )RSV final = (RSV text · α) + (RSV visual · β) (5)donde α y β son los pesos de cada lista ycumplen que α+β = 1• Consulta textual expandida: Otra manerade mezclar los resultados textuales yvisuales es utilizando la lista obtenida alexpandir la consulta textual. De esta forma,la aportación visual al experimento esmayor (Figura 5).• Consulta textual expandida y GIFT: Porúltimo, se puede mezclar la lista de laconsulta expandida con la lista del GIFT,utilizando la fórmula (5), para realizar unadoble aportación visual.5.4 Resumen de experimentosCada uno de los experimentos diseñados () seha lanzado contra cada una de las coleccionesgeneradas usando filtrado de etiquetas con IG.A dichas colecciones se le ha denominadosegún el porcentaje de etiquetas seleccionadas:Coll_10, Coll_20, ..., Coll_100. Al corpuscompleto con todas las etiquetas se le hadenominado Coll_All. Recordemos que loscorpus con el 100% de las etiquetas y con todaslas etiquetas no son iguales.Figura 4: Esquema de mezclado de las listasvisuales y textualesUna vez calculada la IG de cada etiqueta yantes de ordenarlas por IG para seleccionar lasetiquetas que tienen mayor valor, se haneliminado aquellas etiquetas cuya frecuenciamedia de palabras es inferior a un umbral dado.De esta forma, eliminamos aquellas etiquetasque teniendo pocas palabras (es decir, pocainformación) tienen un valor de IG alto. Asípues, el corpus denominado Coll_100 filtradopor IG contiene el 100% de las etiquetas quehan superado el umbral de corte, y por lo tantodicho corpus contiene menos etiquetas que elcorpus completo (Coll_All).Para dar nombre a los experimentos demezcla de listas se ha optado por la siguientenomenclatura:Talfa_Ccoleción(para los experimentos de mezcla)donde:125


Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López• alfa: el porcentaje dado al RSV textual• colección: porcentaje de etiquetas que tienela colección donde se realiza larecuperación textualPor ejemplo, si un experimento se nombraT90C30, significa que se le ha dado un 90% deimportancia al RSV textual (y en consecuenciaun 10% al RSV visual) y que se ha utilizado lacolección con el 30% de etiquetas con mejorIG.Para los experimentos donde se realizaexpansión de la consulta con las 4 primerasimágenes del GIFT, los experimentos se hannombrado de la siguiente manera:Expand_Ccoleción(para los experimentos de expansión)donde colección es el porcentaje de etiquetasque tiene la colección donde se realiza larecuperación de información. Por ejemplo, unexperimento llamado ExpandCall, significa quese ha utilizado la colección con todas lasetiquetas (all) para realizar la recuperación deinformación.En cuanto a los experimentos donde serealiza expansión de la consulta con las 4primeras imágenes del GIFT más la mezcla dedichos resultados con el caso base textual, losexperimentos se han nombrado de la siguientemanera:ExpandTalfa_Ccoleción(para los experimentos de expansión)Consulta VisualSistema CBIR(GIFT)Lista de imágenesrelevantes(List visual )Show mephotographs ofbenign ormalignant skinlesionsConsulta TextualConsulta Textual+texto de las 4primeras imágenesde List visualConsulta expandidaSistema IR(Lemur)Lista de imágenesrelevantes(List final )Por ejemplo, un experimento con nombreExpandT50C20, significa que se le ha dado un50% de importancia al RSV textual expandido(y en consecuencia un 50% al RSV visual) yque se ha utilizado la colección con el 20% deetiquetas con mejor IG.ExperimentoGIFT(caso base visual)OnlyText(caso base textual)Texto expandidocon GIFTα(porcentajetextual)0%100%10%, …,100%ColecciónutilizadaNingunatextual10%, …,100%, all10%, …,100%, allTabla 1: Resumen de experimentos realizados.Figura 5: Esquema de expansión de la consultautilizando las 4 primeras imágenes obtenidascon GIFT5.5 ResultadosDependiendo del experimento, tenemos variostipos de resultados5.5.1 Sólo texto con diferentes coleccionesCon los primeros resultados obtenidos,podemos comparar cómo se comportan lasdistintas colecciones generadas, es decir,aquellas colecciones que tienen diferenteporcentaje de etiquetas (etiquetas elegidassegún su IG).Como se puede comprobar en la Figura 6, alutilizar sólo las consultas textuales pararecuperar las imágenes relevantes, se obtienenmejores resultado que utilizando únicamente el126


Mejora de los sistemas multimodales mediante el uso de ganancia de información0,30,250,2MAP0,15onlytextGIFT0,10,05010 20 30 40 50 60 70 80 90 100 AllCollFigura 6: Comparación entre los casos base visual y textualsistema GIFT 13 , obteniéndose una precisiónmedia (MAP) de casi el doble en el mejor delos casos (usando la colección con el 30% deetiquetas).En términos generales, las colecciones quetienen un porcentaje de etiquetas reducido(entre el 20% y el 50%) obtienen los mejoresresultados, con un valor de MAP entre 0,18 y0,17.5.5.2 Mezcla de solo texto y GIFTEn cuanto a los experimentos realizadosmezclando ambas listas (visual y textual),podemos comprobar que aquellos que dan máspeso al texto obtienen mejores resultados, tal ycomo era de esperar, ya que la recuperacióntextual genera mejores resultados que larecuperación visual con GIFT. No obstante,aquellos experimentos donde el peso dado altexto está entre el 40% y el 90% tambiénconsiguen superar al caso base textual (Figura6).Los experimentos con mejores resultadosson aquellos en los que el peso de la partetextual no es muy elevado (50%, 60% y 70%)lo que efectivamente demuestra que lacombinación de los dos tipos de resultados(textual y visual) permite superar los resultadosobtenidos de manera independiente (Tabla 2).El uso de colecciones con un menor númerode etiquetas también mejora los resultadosobtenidos (Figura 7). En este caso, podemoscomprobar cómo se acentúa la influencia queproduce la cantidad de etiquetas de la colección.El experimento que mejor se comporta es aquelque da un 60% de importancia al texto (α=0,6;β=0,4). En este experimento se comprueba queutilizar una colección que posea un número deetiquetas reducido (entre el 20% y el 40%)mejora la calidad de las soluciones.Como se puede comprobar, la mezcla deresultados supera con creces los resultadosvisuales (GIFT), incluso en aquellas mezclas enlos que los resultados están por debajo del casobase textual.5.5.3 Consulta textual expandidaCuando se genera una nueva consulta con eltexto original de la consulta más el textoasociado a las cuatro primeras imágenes de lalista visual, el resultado no difiere mucho deutilizar sólo texto. De hecho, los resultadosobtenidos no son nada significativos puesto queprácticamente son iguales a los obtenidos con elcaso base textual (la mayor diferencia entreresultados es de 0.001). Por este motivo, no semuestran dichos resultados.13 El valor MAP para el GIFT es 0.094127


Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña LópezC10 C20 C30 C40 C50 C60 C70 C80 C90 C100 CAllonlytext 0,1645 0,1695 0,1791 0,1762 0,1695 0,1599 0,166 0,1659 0,1659 0,1659 0,1614T10 0,1132 0,1150 0,1161 0,1153 0,1147 0,1144 0,1155 0,1153 0,1154 0,1154 0,1166T20 0,1309 0,1341 0,1360 0,1347 0,1335 0,1326 0,1342 0,1339 0,1342 0,1342 0,1360T30 0,1544 0,1581 0,1610 0,1584 0,1568 0,1538 0,1554 0,1552 0,1553 0,1553 0,1572T40 0,1875 0,1912 0,1965 0,1898 0,1862 0,1792 0,1795 0,1791 0,1791 0,1791 0,1780T50 0,2073 0,2115 0,2198 0,2151 0,2012 0,1930 0,1970 0,1962 0,1963 0,1963 0,1919T60 0,2140 0,2164 0,2252 0,2238 0,2074 0,1955 0,2010 0,2001 0,2000 0,2000 0,1995T70 0,2055 0,2040 0,2131 0,2120 0,1988 0,1885 0,1941 0,1930 0,1933 0,1933 0,1901T80 0,1922 0,1915 0,2013 0,1995 0,1882 0,1785 0,1851 0,1843 0,1846 0,1846 0,1800T90 0,1804 0,1825 0,1920 0,1891 0,1806 0,1705 0,1776 0,1768 0,1772 0,1772 0,1716Tabla 2. Mezcla de solo texto y GIFTC10 C20 C30 C40 C50 C60 C70 C80 C90 C100 CAllonlytext 0,1645 0,1695 0,1791 0,1762 0,1695 0,1599 0,166 0,1659 0,1659 0,1659 0,1614ExpandT10 0,1131 0,1150 0,1161 0,1151 0,1147 0,1143 0,1155 0,1156 0,1154 0,1154 0,1168ExpandT20 0,1309 0,1342 0,1362 0,1346 0,1335 0,1327 0,1340 0,1344 0,1341 0,1341 0,1363ExpandT30 0,1545 0,1582 0,1611 0,1579 0,1566 0,1537 0,1552 0,1554 0,1554 0,1554 0,1581ExpandT40 0,1876 0,1915 0,1966 0,1894 0,1863 0,1794 0,1793 0,1797 0,1795 0,1795 0,1784ExpandT50 0,2072 0,2119 0,2202 0,2145 0,2014 0,1931 0,1970 0,1967 0,1964 0,1964 0,1932ExpandT60 0,2139 0,2164 0,2256 0,2228 0,2073 0,1958 0,2009 0,2006 0,2004 0,2004 0,1997ExpandT70 0,2063 0,2043 0,2129 0,2110 0,1989 0,1884 0,1935 0,1936 0,1934 0,1934 0,1905ExpandT80 0,1925 0,1918 0,2013 0,1988 0,1886 0,1785 0,1848 0,1845 0,1847 0,1847 0,1807ExpandT90 0,1808 0,1828 0,1920 0,1882 0,1806 0,1705 0,1774 0,1774 0,1773 0,1773 0,1729Tabla 3. Mezcla de la consulta textual expandida y GIFT0,25MAP0,20,150,10,05OnlyTextT10T20T30T40T50T60T70T80T90010 20 30 40 50 60 70 80 90 100 AllcollFigura 7: Gráfica comparativa de los distintos métodos de mezclado de listas (visual y textual)128


Mejora de los sistemas multimodales mediante el uso de ganancia de información5.5.4 Mezcla de la consulta textualexpandida y GIFTCuando utilizamos conjuntamente la expansióny la mezcla de listas los resultados son similaresa la simple mezcla de listas, ya que como se hacomentado en el apartado anterior, la expansiónno mejora los resultados textuales. Sinembargo, el mejor de los resultados global(experimento ExpandT60C30) es levementesuperior al mejor de los resultados de la simplemezcla (experimento T60C30), tal y como sepuede observar en la Tabla 3. En realidad, si secompara toda la tabla en general, la diferenciaes ínfima.En la Figura 8, podemos observarclaramente cómo los mejores resultados seconcentran cuando se utilizan colecciones conun porcentaje de etiquetas menor y el peso de lalista textual es superior a la de la lista visual.6 Conclusiones y trabajos futurosLa selección de etiquetas utilizando el métodode IG permite filtrar un corpus con el fin demejorar la calidad y obtener así mejoresresultados en la recuperación de información.Además de reducir el tamaño de los corpusutilizados, este método permite seleccionaraquellas etiquetas más significativas dentro delcorpus, o por lo menos, aquellas que másinformación aportan.Este sistema de selección no necesita ningúntipo de entrenamiento ni conocimiento externo,simplemente estudia la importancia de cadaetiqueta con respecto al total de documentos.Además, es independiente del corpus analizado,ya que en nuestros experimentos el cálculo de laIG se ha realizado de forma independiente encada subcolección.Además, se ha comprobado que el uso ycombinación de varias fuentes de información(textual y visual) mejora significativamente lautilización de una única fuente. Aunque por unaparte, la recuperación textual por si sola superaa la recuperación visual, cuando se utilizanconjuntamente, los resultados superan a losobtenidos con las resuperacionesindependientes.Por último, también se ha comprobado quela expansión de la consulta textual incorporandotexto a partir de las imágenes de la recuperacióntextual no aporta apenas beneficios.En el futuro se intentará estudiar laincidencia de aplicar esta técnica en sistemasque necesitan más información, como porejemplo, sistemas de búsqueda de respuestas.Además, se aplicarán todos los resultadosobtenidos sobre otras colecciones conmetadatos como por ejemplo a las coleccionesTRECVid.0,25000,20000,1500MAP0,10000,05000,0000ExpandT90ExpandT70ExpandT500,2000-0,25000,1500-0,20000,1000-0,15000,0500-0,10000,0000-0,0500103050ExpandT30coll7090AllExpandT10Figura 8: Gráfica comparativa entre los experimentos que utilizan expansión y mezcla de listas129


Manuel Carlos Díaz Galiano, Mª Teresa Martín Valdivia, Arturo Montejo Ráez, L.Alfonso Ureña López7 AgradecimientosQueremos expresar nuestra gratitud a laorganización del CLEF y más concretamente aCarol Peters, por permitirnos utilizar yreferenciar los distintos recursos disponibles endicho foro.Este trabajo ha sido parcialmente financiadopor el Ministerio de Ciencia y Tecnología através del proyecto TIMOM (TIN2006-15265-C06-03).BibliografíaClough, P., H. Müller, T. Deselaers , M.Grubinger, T. Lehmann, J. Jensen, W.Hersh. 2005. The CLEF 2005 Cross-Language Image Retrieval Track. InProceedings of the Cross LanguageEvaluation Forum (CLEF 2005).Clough, P., M. Grubinger, T. Deselaers, A.Hanbury y H. Müller. 2006. Overview of theImageCLEF 2006 photographic retrievaland object annotation tasks. Evaluation ofMultilingual and Multi-modal InformationRetrieval – Seventh Workshop of the Cross-Language Evaluation Forum, CLEF 2006.Declerck, T., J. Kuper, H. Saggion, A.Samiotou, P. Wittenburg y J. Contreras.2004. Contribution of NLP to the ContentIndexing of Multimedia Documents. Imageand Video Retrieval. LNCS 2004. Volume3115/2004.Kato, T. 1992. Database architecture forcontent-based image retrieval. ImageStorage and Retrieval Systems, Proc. SPIE3312, 162-173.Lee, W., D. Xiang. 2001. Information-TheoreticMeasures for Anomaly Detection. Proc. ofthe 2001 IEEE Symposium on Security andPrivacy.Lewis, M. S., N. Sebe, C. Djeraba y R. Jain.2006. Content-Based MultimediaInformation Retrieval: State of the Art andChallenges. ACM Transactions onMultimedia Computing, Communications,and Applications, Volume 2. February 2006.Mitchell, T. 1996. Machine Learning. McGrawHill.Müller, H., T. Deselaers, T. Lehmann, P.Clough y W. Hersh. 2006. Overview of theImageCLEFmed 2006 medical retrieval andannotation tasks. Evaluation of Multilingualand Multi-modal Information Retrieval –Seventh Workshop of the Cross-LanguageEvaluation Forum, CLEF 2006. LNCS 2006.Quinlan, J. R. 1986. Induction of DecisionTrees. Machine Learning, (1), 81-106.Shannon, C. E. 1948.A mathematical theory ofcommunication. Bell System TechnicalJournal, vol. 27, pp. 379-423 y 623-656.Squire, D., W. Müller, H. Müller, T. Pun. 2000.Content-based query of image databases:inspirations from text retrieval. PatternRecognition Letters. Selected Papers fromThe 11th Scandinavian Conference onImage Analysis SCIA '99, 21(13-14):1193-1198.Yang, Y., J. O. Pedersen. 1997. A ComparativeStudy on Feature Selection in TextCategorization. Proceedings of ICML-97,14th International Conference on MachineLearning.130


La anotación del habla en corpus de vídeoManuel Alcántara PláDFKI GmbHSaarbrückenmanuel.alcantara@dfki.deResumen: La anotación lingüística del habla en corpus multimodales es una labortan nueva como costosa, pero también es prometedora para tareas como la extraccióny el resumen de contenido, así como para abrir nuevos caminos en el análisis delhabla espontánea. El presente artículo repasa el estado de la cuestión en los distintosniveles de análisis con ejemplos de proyectos internacionales y nacionales, resaltandola importancia de encontrar una base común a pesar de la actual falta de estándares.Palabras clave: anotación lingüística, corpus multimodal, estandarizaciónAbstract: The linguistic tagging of spoken language in multimodal corpora is a newand complex task. However, its possibilities for other tasks such as content extraction/summarizationand for further linguistic analysis are promising. This articlereports on the state-of-the-art in the different analysis levels including experiencesfrom international projects and stressing the importance of a common ground inspite of the current lack of standards.Keywords: linguistic tagging, multimodal corpora, standardization1. IntroducciónEl análisis lingüístico de las transcripcionesdel habla extraídas de corpus de vídeo esun campo de investigación muy reciente dentrode la lingüística computacional. La cantidadde colecciones de habla es también muylimitada y aún más si sólo tenemos en consideraciónlos corpus que incluyen algún tipode anotación lingüística. La aplicación enlos corpus orales de los etiquetados diseñadospara la lengua escrita requiere de una adaptacióncostosa que empieza incluso en las basesteóricas gramaticales, sólo probadas hastaahora -en el mejor de los casos- sobre textosescritos.La necesidad de corpus anotados de estascaracterísticas es cada vez más obvia yacuciante tanto en la lingüística como en lasaplicaciones enmarcadas dentro de la inteligenciaartificial. Por este motivo, el númerode corpus de habla espontánea ha crecido demanera importante durante los últimos añosy su desarrollo ha suscitado un buen númerode cuestiones que se están multiplicandoahora al incluir las relaciones entre el habla yel resto de elementos presentes en un corpusmultimodal.Este artículo describe cuáles son los problemasmás graves encontrados en este nuevoreto de la lingüística de corpus así como algunasde las medidas que han sido adoptadashasta el momento para resolverlos. Dado quemuchos de los proyectos mencionados estánaún desarrollándose, he optado por citar apie de página el respectivo sitio de interneten cada primera mención para facilitar el accesoa su estado actual. En las conclusionesfinales, se resaltará la necesidad de una basede trabajo común para el etiquetado delhabla.2. La transcripción del hablaLa anotación del habla depende en primerainstancia de las características de la transcripción.La mayoría de las transcripcionesse realizan o generan siguiendo las convencionesortográficas de la lengua que se trate taly como recomiendan, entre otros, el Corpusde Habla Holandés (CGN) 1 , el Corpus NacionalBritánico (BNC) 2 y el Corpus de JaponésEspontáneo (CSJ) 3 . Debido a que la transcripciónfonética se considera aún demasiadocompleja para el habla espontánea, los corpusque incluyen transcripciones de este tipoen lugar -o además- de ortográficas se basanen alfabetos fonémicos en lugar de fonéticos.Con este fin, se utiliza el AFI en la últimaversión del UAM-C-Oral-Rom (Moreno et al.,2005) y en el Corpus Taiwanés de Lengua Infantil(TAICORP) (Tsay, 2005), el sistema1 http://lands.let.kun.nl/cgn/ehome.htm2 http://www-dev.natcorp.ox.ac.uk/3 http://www2.kokken.go.jp/ csj/public/ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Manuel Alcántara PlaSAMPA 4 en el CGN y las sílabas Kana enel CSJ. Precisamente este último es un buenejemplo de intento de realizar transcripcionesfonéticas con el objetivo de etiquetar fenómenoscomo la palatalización. Sus conclusionesno son, sin embargo, muy alentadoras puestoque no fueron capaces de etiquetar todoslos rasgos fonéticos que pretendían originalmentepor el bajo nivel de acuerdo que seencontraron entre los anotadores.La transcripción, aun siendo ortográfica,implica un buen número de decisiones arbitrariastales como el tratamiento de lasmayúsculas, los acrónimos y los símbolos, lapuntuación, las marcas diacríticas, los números,los préstamos lingüísticos y las palabrasque no aparecen normalmente en fuentes escritas.Entre estas últimas, son especialmenteimportantes por su frecuencia las decisionescon respecto a los rasgos dialectales, las interjeccionesy los marcadores discursivos. Aeste respecto, es importante señalar la existenciade guías como el Estándar de Codificaciónde Corpus (XCES) del grupo EAGLES 5 ,que desgraciadamente sólo cubren los aspectosmás generales.Las convenciones ortográficas han probadoser problemáticas por dos razones curiosamenteopuestas. Por un lado, hay casos en losque son excesivamente ambiguas y necesitanser restringidas. Un ejemplo es el CSJ, quehace un uso del Kanji (pictogramas chinos)y del Kana (silabario japonés) mucho másestricto que el propuesto por las normas ortográficasdel japonés estándar de modo quea cada forma sólo le corresponda una cadenafónica.Por otro lado, las convenciones pueden serexcesivamente restrictivas como para reflejarla creatividad del habla. El TAICORP es unejemplo en el que se usa la ortografía chinacomo base, pero se la acompaña del sistemade romanización Taiwan Southern Min paralas palabras que no se pueden encontrar enlos diccionarios tradicionales.Otro aspecto importante a tener en cuentaa la hora de analizar un corpus de habla esel modo en que se ha realizado la transcripción:de forma manual o automática. El estadoactual de los sistemas de reconocimientoautomático de habla (ASR) no permite obteneraún unos resultados fiables para el análisislingüístico (Alcántara y Declerck, 2007).4 http://www.phon.ucl.ac.uk/home/sampa/home.htm5 http://www.cs.vassar.edu/XCES/Los sistemas más avanzados logran alrededordel 90 % de palabras correctas, pero sólo enlas mejores condiciones (lo que significa hablacon guión producida en un laboratorio).Si el corpus incluye diferentes hablantes y lasgrabaciones han sido realizadas en contextosnaturales, el porcentaje baja a bastante menosde la mitad.3. Elementos no lingüísticosLas transcripciones de habla suelen incluirla anotación de rasgos no lingüísticos queayudan a su posterior análisis. Estos datos,generalmente en la cabecera del documento oen un documento externo, están relacionadostanto con la transcripción como con la fuenteoriginal del vídeo. Con respecto a los documentos,datos típicos son su tamaño, su calidadacústica, los formatos, las fuentes, los hablantesque aparecen (generalmente con algunascaracterísticas como su edad, nivel educativoy género), los responsables de las transcripcionesy los enlaces a otros archivos o documentosrelacionados. La información sobrela calidad acústica suele acompañarse de detallesde la grabación tales como el tipo demicrófonos, la frecuencia o si el tratamientoes digital o analógico. La información sobre lafuente es especialmente importante si los textoshan sido tomados de corpus preexistentes.En cuanto a los enlaces a otros documentos,es recomendable realizarlos a través de un documentoexterno de modo que sea más sencillasu gestión y la posibilidad de compartir oreutilizar los contenidos del corpus. El marcoeuropeo Isle Meta Data Initiative 6 está proponiendoun estándar para este tipo de gestiónde corpus multimodales/multimedia.En algunos casos, es fundamental la inclusiónde información sobre el contexto y sobrelos rasgos sociolingüísticos de la interaccióncontenida en el documento (como, por ejemplo,en CHILDES 7 o C-Oral-Rom). Etiquetastípicas sobre el contexto son las condicionesen las que se produjo la grabación (incluyendoel papel que tuvo el grabador y el nivelde espontaneidad), la fecha y el lugar en quese produjo. Las anotaciones sociolingüísticasinforman sobre los participantes de la interacción(nombres, edades y lugares de nacimiento,géneros, papel en la conversación, niveleducativo, etc.) y son un criterio común para6 http://www.mpi.nl/IMDI/7 http://childes.psy.cmu.edu/132


La notación del habla en corpus de vídeoel diseño de los corpus (p.ej. CGN, CHIL-DES o C-Oral-Rom). Si el discurso está divididoen turnos, un identificador único se relacionacon cada participante para permitirreferencias en el diálogo a la información delhablante. Otros rasgos sociolingüísticos comoel dialecto o el registro son, aunque tambiénfrecuentes, más dependientes del objetivo delcorpus. El CSJ, por ejemplo, incluye datosespecíficos sobre el nivel de fluidez, de expresividady de claridad articulatoria de los hablantes.Por último, algunas anotaciones legalespueden ser obligatorias dependiendo de la legislaciónvigente. El consentimiento de loshablantes a ser grabados y los derechos dela propiedad intelectual tienen que aparecerexplícitos en los corpus de la Unión Europea.Los consentimientos deben explicitar si el sonidopuede ser transcrito, usado para la investigacióny publicado. Aunque los derechos depropiedad intelectual son más típicos de losdocumentos escritos, también son relevantesen grabaciones literarias o con valor científico(por ejemplo, conferencias) así como en documentostomados de medios de comunicación.Este aspecto puede repercutir en el valor delcorpus de dos maneras diferentes. Por un lado,las ventajas de un corpus que cuenta contodos los permisos para su utilización y publicaciónson evidentes para una investigaciónexitosa. Por otro lado, estos requisitos legalespueden comprometer la espontaneidad delo grabado puesto que es difícil lograr una interacciónnatural después de haber advertidoa los interlocutores de que sus palabras novan a ser sólo grabadas, sino también minuciosamenteanalizadas y probablemente publicadas.Como ocurre también con los demás nivelesde anotación en el corpus, las etiquetaselegidas para los elementos no lingüísticos difierencompletamente entre los distintos proyectos.Por este motivo, son de gran importanciainiciativas como la citada IMDI, quenos facilitarán en el futuro tanto el diseño denuevos corpus como la utilización de los yaexistentes.4. Los límites prosódicosLa falta de una puntuación ortográfica enla lengua oral le da una especial relevanciaa otros criterios más lingüísticos, en especiallos límites prosódicos (p.ej. las proferencias) ypragmáticos (p.ej. los actos de habla). Debemosseñalar, no obstante, que existen corpus,generalmente no entre los más recientes, quesí se guían por la puntuación (p.ej. el COR-LEC 8 ). El análisis de este último muestra quela puntuación normativa influye a veces en lafiabilidad de la transcripción. El transcriptortiende a adaptar lo que escucha a las formasnormativamente correctas ya que en muchasocasiones no es posible de otro modo ponerlepuntos y comas al habla espontánea.Como consecuencia en parte de que losestudios se hayan centrado tradicionalmenteen la lengua escrita, las unidades deanálisis prosódicas son todavía controvertidasen cuanto a su definición y nomenclatura.La proferencia (utterance) es el términomás común (Cresti y Moneglia, 2005; Millery Weinert, 1998), pero no hay acuerdoen cuanto a su definición. Para algunos corpuscomo el CIAIR-Corpus de Diálogos enCoches (Kawaguchi et al., 2005) o el CSJ,los silencios son las pistas determinantes,pero la mayoría de corpus combinan criteriosde otros niveles lingüísticos, sobre todopragmáticos y sintácticos. Estos criterios son,no obstante, también discutidos con frecuencia.Mientras que los pragmáticos se criticanpor basarse en los actos de habla de Austin,considerados a menudo demasiado subjetivospara una anotación extensa y coherente,los sintácticos se critican por la dificultadde aplicar reglas fundamentadas en la lenguaescrita sobre textos que tienen característicasdiferentes como, por poner un ejemplo,un tercio de oraciones no verbales (Cresti yMoneglia, 2005).Algunos proyectos proponen criterios mixtospara evitar estos problemas. El corpusTRAINS93, por ejemplo, se basa en dos clavespara establecer los límites prosódicos: porun lado, se da una ruptura en el discurso delhablante y otro hablante interviene; por otrolado, se produce una ruptura en la entonación,en la sintaxis (coincidencia con un límitede categoría sintáctica) o hay una respiración(Heeman y Allen, 1995). En C-Oral-Rom, sedistingue entre proferencias simples y complejas(con una o más de una unidad tonal) yse comparan las proferencias con los actos dehabla de Austin (Austin, 1962) y las unidadestonales con las unidades informativas deHalliday (Halliday, 1976), pero siempre considerandolos cambios entonativos la pista más8 ftp://ftp.lllf.uam.es/pub/corpus/oral/133


Manuel Alcántara Pladeterminante a la hora de anotar límites, conun fuerte protagonismo de los perfiles terminales(Crystal, 1975). Cabe señalar que esteúltimo ejemplo lo es de una experiencia exitosapuesto que el proyecto contó con un 95 %de acuerdo ent re los anotadores.Otras unidades han sido utilizadas enotros proyectos dependiendo del objetivo desus análisis. Por poner dos ejemplos distintos,el CGN tiene anotadas las sílabas prominentes,los límites prosódicos entre palabras y losalargamientos segmentales (Hoekstra et al.,2002) mientras que el sistema de MultilevelAnnotation Tools Engineering (MATE 9 ) etiquetagrupos de acentos, pies, sílabas y moras.Entre las aproximaciones más acústicas, elsistema TOBI 10 (Tone and Break-Index) seha utilizado como estándar para la transcripciónde entonación y estructuras prosódicas almenos para el inglés, el alemán, el japonés, elcoreano y el griego, con las adaptaciones pertinentesen cada caso. Junto con el contornode la frecuencia fundamental y la transcripciónortográfica, el TOBI incluye un nivel paralos tonos y otro para los índices de los distintoslímites. Las etiquetas transcriben lasvariaciones de tono como secuencias de tonosaltos (H) y bajos (L) e incluyen marcasdiacríticas con su función (el inventario deeventos tonales está basado en análisis autosegmentales).Los límites marcan los gruposprosódicos en una proferencia etiquetandoel final de cada palabra sobre una escaladel 0 (la unión perceptible más fuerte con lasiguiente palabra) al 4 (la mayor separación).Un ejemplo de adaptación del sistema es elX-JTOBI, versión del TOBI de japonés leídopara el habla espontánea 11 . Las etiquetas paralos tonos y los límites fueron extendidasen el X-JTOBI para poder representar rasgosparalingüísticos propios de la entonación espontánea,incluyendo fenómenos de disfluenciatales como las pausas largas, las palabrasfragmentadas y las pausas dentro de una palabra.Los diferentes sistemas existentes no sediferencian sólo en el modo en que se definenlos conceptos que manejan, sino tambiénen cómo estos son anotados. Una convenciónmuy extendida es la de Gross (Gross, Allen, y9 http://mate.nis.sdu.dk/10 http://www.ling.ohio-state.edu/ tobi/11 http://www.ling.ohiostate.edu/research/phonetics/JToBI/Traum, 1993) con las proferencias separadasen distintas líneas o incluso ficheros, numeradassegún el número de turno y el númerode proferencia dentro de ese turno (comodescriben Nakatani y Traum sobre su corpus(Nakatani y Traum, 1999)). Otra convenciónfrecuentemente utilizada es la del asterisco(*) junto a un código que identifique al hablantepara marcar el inicio de un turno yla de las dobles barras (//) para marcar loslímites prosódicos (p.ej. en CHILDES y enC-Oral-Rom).Además de los límites prosódicos, la lenguahablada incluye otros fenómenos quetambién suelen etiquetarse dentro de laanotación prosódica a pesar de que, dadassus peculiaridades, afectan a prácticamentetodos los niveles (González et al., 2004). Elcitado artículo los clasifica en dos grupos: rasgosde producción y rasgos de la interacción.Los primeros incluyen, entre otros, las palabrasfragmentadas, los apoyos vocálicos ylos reinicios. Los segundos son los cambios deturnos y los solapamientos.5. Unidades morfosintácticasLa anotación morfosintáctica de la lenguahablada es diferente a la de la escrita y nopuede llevarse a cabo con los sistemas de etiquetadopreexistentes. La morfosintaxis de lalengua oral es aún controvertida incluso enlos aspectos más fundamentales. Por ponerun ejemplo básico, algunos corpus utilizan losblancos para delimitar palabras (lo hacen así,p.ej., el BNC y el CGN) mientras que otrosprefieren considerar palabras aquellos gruposmínimos de sonidos que tienen un significadopropio (p.ej. el UAM C-Oral-Rom o elUSAS 12 ). Esta última decisión, aunque arbitrariaen muchos casos, evita circunstanciascomo la descrita en las especificaciones delBNC, con etiquetados diferentes para formasdistintas de una misma palabra (p.ej. “foxhole”o “fox hole”).En el habla se encuentran muchas partesdifícilmente categorizables dentro de las tipologíasmorfológicas tradicionales. Un usocomún es no transcribirlas como palabras,sino a través de símbolos (o simplemente notranscribirlas en absoluto, lo que merma considerablementela riqueza del corpus). Estaúltima solución fue la adoptada por los primeroscorpus tales como el CORLEC, carac-12 http://www.comp.lancs.ac.uk/ucrel/usas/134


La notación del habla en corpus de vídeoterizados, como hemos visto antes, por seguiruna transcripción ortográfica normativa. Loscorpus más modernos están intentando ampliarla tipología para dar cabida a estas palabras,con lo que están ganando prominenciacategorías que antes eran marginales como esla de los marcadores discursivos.Como era de esperar, las características decada lengua influyen directamente en las decisionestomadas con respecto al análisis morfológicode modo que la anotación de corpuscomo el CGN y el CSJ es claramente distinta.El último, por ejemplo, distingue entrepalabras cortas (de uno o dos morfemas) ylargas (compuestas de varias cortas y partículas),algo que no sería pertinente en un corpusde una lengua romance o germánica. Es importanteseñalar que esta influencia provienefrecuentemente más de la tradición lingüísticaque de la lengua en sí. Un ejemplo claroes la imposibilidad de acuerdo para las clasesde palabras entre los cuatro grupos deC-Oral-Rom, cuyas respectivas lenguas (portugués,italiano, francés y español) eran enteoría muy parecidas.Precisamente las clases de palabras sonla información morfosintáctica más básica yfrecuente en los corpus, casi siempre acompañadade los lemas de las palabras. Los sistemasde etiquetado automático basados enmétodos estadísticos como el TnT (Brants,2000) o el de E. Brill (Brill, 1993) han demostradoresultados satisfactorios (p.ej. en lossistemas CLAWS4 (Leech, Garside, y Bryant,1994) y GRAMPAL (Moreno, 1991)), perosiempre después de su adaptación a la lenguahablada. Así la última versión de GRAMPALincorpora marcadores discursivos y elementosenfáticos mientras que el BNC utiliza el mencionadosistema CLAWS4 adaptándolo a algunosfenómenos propios de la oralidad comoson las repeticiones. La calidad de la anotacióndepende también de la adaptación de lascategorías que son frecuentes en la escriturapuesto que sus posiciones y frecuencias nosuelen coincidir con las del habla. Los marcadoresdiscursivos y las interjecciones, porejemplo, son en general palabras utilizadascon otras funciones al escribir, lo que dificultasu desambiguación categorial hasta elpunto de haber sido obviadas hasta ahora enla mayoría de los corpus (como los mencionadosCGN, EAGLES, BNC y XCES). En loscorpus en los que se ha optado por adaptar laanotación, la redefinición de las categorías seha realizado desde criterios funcionales (p.ej.en el UAM C-Oral-Rom) o formales (p.ej. enel CGN).Más allá de los problemas de definición,no podemos olvidar aquellos heredados dela transcripción, como son la pronunciaciónextraña de palabras, la alta frecuencia depréstamos lingüísticos y el uso de neologismos(casi siempre a través de morfemas derivativos),que añaden gran cantidad de ruidoa los análisis morfosintácticos. Por regla general,las normas de etiquetado suelen incluirun protocolo describiendo las decisiones quese han tomado para anotar estos fenómenosorales.En cuanto a la anotación puramentesintáctica, muy pocos corpus orales la incluyenpor la dificultad de distinguir automáticamenteunidades complejas (sintagmasy oraciones) en el habla. Algunos ejemplosde estas experiencias son el CGN y elCSJ. Un 10 % del primero fue etiquetadosemi-automáticamente con el programa AN-NOTATE siguiendo un análisis de dependenciasdiseñado con la máxima sencillez paraminimizar los costes (Hoekstra et al., 2002).El mismo criterio llevó a elegir las proposicionescomo unidad de anotación de un subcorpusdel CSJ de 500.000 palabras tomadasde monólogos. Las proposiciones son más sencillasde segmentar que las oraciones porquelos verbos conjugados y las conjunciones secolocan al final de ellas en japonés.6. La semánticaLa anotación semántica se realiza habitualmentedesde dos perspectivas en principiodiferentes: la conceptual y la estructural. Lossistemas conceptuales etiquetan documentoso palabras según el campo al que perteneceny se distinguen entre sí por el número decategorías y los criterios involucrados en susontologías. Por ejemplo, cada noticia grabadade los telediarios en la Digital Video Library13 se etiqueta automáticamente dentrode una de sus 3178 categorías temáticas graciasa un algoritmo de cercanía K. Un ejemplode etiquetado de palabras para lengua escritay hablada -en inglés- es el USAS utilizado enel software UCREL para análisis semánticosautomáticos. Incluye 232 categorías divididasen 21 campos (como “educación” o “comida”)y sus reglas de desambiguación depen-13 http://www.open-video.org/135


Manuel Alcántara Pladen de la categoría morfológica de la palabra,de sus apariciones en el mismo texto, del contextoy del dominio en el que se encuadra eldiscurso.Otro caso típico de etiquetado conceptuales el del reconocimiento de entidades propias(NE). En el Corpus Japonés de Diálogos paraAnálisis de Enfermería (itoh Ozaku et al.,2005), se utilizó la herramienta NExT paraextraer nombres propios, medicamentos y enfermedadesde modo que se pudieran inferirfácilmente las situaciones que aparecían encada grabación. Gracias al carácter multimodaldel corpus, la desambiguación se llevaba acabo teniendo en cuenta datos extralingüísticoscomo la localización en la que se encontrabala enfermera cuando pronunciaba las palabras(las enfermeras llevaban unos sensoresde posición, lo que también permitía saberquién participaba en cada interacción).La anotación estructural difiere más de lalengua escrita que la conceptual y es, por lotanto, uno de los grandes retos en los nuevoscorpus. Su atractivo es grande debido a las yamencionadas dificultades que plantea la estructuraciónsintáctica del habla espontáneay aún más si se utiliza conjuntamente conla información ontológica. Uno de los escasosejemplos ya finalizados es SESCO (Alcántara,2005), donde las estructuras eventivas fueronutilizadas en un etiquetado que buscaba,de nuevo, la mayor simplicidad para ser flexibleen el análisis de un corpus de habla espontáneasin restricciones. La anotación sebasó en la estructuración composicional detres únicos tipos eventivos (estados, procesosy acciones) que podían ser subdivididos segúnlos argumentos que requisieran. El resultadoes un ejemplo claro de la potencialidad deeste tipo de etiquetados puesto que sus estructurasse están utilizando en la actualidadcomo base para el análisis de otros niveleslingüísticos.Otro ejemplo es el Spanish Framenet, actualmenteen desarrollo. Aunque el corpusque se utiliza en este proyecto es básicamentede lengua escrita, incluye también un 12 %de habla espontánea (alrededor de 35 millonesde palabras según los datos expuestos enla página del proyecto 14 ). El etiquetado estructurala lengua en marcos relacionando loslexemas con situaciones prototípicas que incluyendiferentes tipos de participantes. Al14 http://gemini.uab.es:9080/SFNsitecontrario que en SESCO, aquí el proceso nocomienza en el corpus, sino en la identificaciónde los marcos. Una vez que el marcoestá definido, se buscan oraciones en el corpusque ejemplifiquen su tipo, anotando lasdistintas partes con las etiquetas apropiadas.El primer lexicón derivado de este trabajoestá anunciado para principios del 2008.7. La pragmáticaLa codificación de elementos pragmáticosha tenido un gran avance en las últimas décadasgracias al desarrollo de sistemas aplicadospara tareas específicas. Un ejemplo conocidoes el Corpus de Tareas con Mapas (MTC)de la Universidad de Edimburgo (Andersonet al., 1991), que cuenta con tres niveles deanotación discursiva. En la superior, el diálogose divide en transacciones en las que secompletan los pasos de la tareas. Esas tareasse subdividen a su vez en juegos conversacionalessimilares a lo que Grosz y Sidner denominansegmentos discursivos (Grosz y Sidner,1986). Por último, estos juegos se componende inicios y respuestas clasificados segúntipos de movimientos conversacionales.También relacionado con el modelo deGrosz y Sidner, el CSJ ha sido anotado conun sistema basado en el IAD de Nakatani(Nakatani et al., 1995). El anotador tiene quedividir manualmente el discurso en segmentosasignándoles su finalidad. El manual delproyecto aclara que ésta es una labor muycostosa que requiere trabajo en equipo y decisionescomplejas. Sin embargo, han sido capacesde etiquetar un pequeño subcorpus demonólogos con patrones de cohesión (es decir,”oraciones que tienen una relación localentre ellas”) y subhistorias (la finalidad deuna parte completa del discurso).Un ejemplo diferente, más conectado conlos aspectos morfosintácticos, es el esquemapropuesto por Marco de Rocha para el análisisde expresiones anafóricas en la lengua hablada(de Rocha, 1997). Cada discurso se etiquetacon un tema que está formado por segmentos,los cuales son anotados según susfunciones discursivas (p.ej. introducción deun tema). Por último, las expresiones anafóricasson etiquetadas junto a su tipo, el tipomorfosintáctico del antecedente, el estatus detopicalidad del antecedente y el tipo de conocimientonecesario para procesarla.Nakatani y Traum ofrecen un ejemplode etiquetado más centrado en los hablan-136


La notación del habla en corpus de vídeotes. Anotan unidades de elementos comunes(CGU) que marcan “el acuerdo entre los hablantessobre su entendimiento de lo que sedice” (Nakatani y Traum, 1999). Cada CGUcontiene las oraciones necesarias para fundamentarun contenido, mientras que varias deestas unidades son anotadas juntas como unidadesintencionales o informativas.Otro de los corpus mencionados anteriormente,el CIAR, también incluye la anotaciónde actos de habla con unas etiquetas denominadasmarcas de intención (LIT), que indicanla intención que tienen las oraciones parael hablante. Cada LIT está formado porcuatro niveles: acto discursivo, acción, objetoy argumento, y se asume que la oración-vinculada al LIT- es la unidad fundamentaldel diálogo. Varias oraciones forman una partedel discurso (PoD) que aparece etiquetadacon la tarea principal que esté llevando a caboel hablante.8. El alineamiento del texto conel sonido y la imagenLa anotación prosódica está estrechamenterelacionada con el alineamiento del sonidoy el texto ya que se suelen tomar unidadesde la prosodia para realizar el proceso. Lasaplicaciones automáticas para el alineamientose basan en rasgos acústicos (físicamentereconocibles) que generalmente se correspondencon perfiles terminales, pero sus resultadosson aún muy limitados. Algunos proyectoshan utilizado unidades de definición máscompleja, pero realizando la tarea manualmente(C-ORAL-ROM), mientras que otroshan sacrificado esta complejidad para facilitarsu automatización, tomando unidadescomo las pausas mayores de tres segundos(p.ej. el CGN) o los fonemas (realizado conun sistema HMM para el CSJ y siendo revisadodespués manualmente).El alineamiento del habla con las imágenesen corpus multimodales es un campo enel que apenas contamos con experiencias, perolos primeros intentos ya han evidenciadola dificultad de sus retos, centrados especialmenteen la conciliación entre los rasgoslingüísticos y los puramente audiovisuales. Lasegmentación del documento en unidades quesean relevantes tanto desde un punto de vistavisual como lingüístico es el primer problemaa solucionar. Las divisiones para el análisisaudiovisual se basan en rasgos acústicos y dela imagen detectados automáticamente, comopueden ser el cambio de cámara o el movimientode la imagen. Estas unidades (denominadasshots) raramente coinciden con loslímites lingüísticos. Aunque sería lo ideal parael análisis del contenido, parece que la relevanciade la segmentación visual para laanotación lingüística es escasa (Alcántara yDeclerck, 2007).9. Conclusiones para el futuroLa multimodalidad supone un paso másen la evolución que se ha venido produciendoen la lingüística de corpus durante las últimasdos décadas (Moreno, 2002). Esta nuevageneración de corpus ofrece un gran potencialpara el análisis lingüístico y el desarrollode aplicaciones de inteligencia artificial dentrode un contexto en el que la dependenciade los corpus y de los avances tecnológicosestá resultando ser claramente bidireccional.No obstante, las características de estas coleccioneshacen que requieran de un esfuerzo importanteen la anotación tanto si se parte dela reutilización de sistemas como si se creanotros nuevos.El mayor problema que afrontamos al desarrollarcorpus multimodales es, como se deducede lo descrito en las secciones previas,la falta de una estandarización eficiente, unproblema que en parte viene heredado de labrevísima tradición en el trabajo con corpusde habla (Llisterri, 1997). Como hemos descritoen este artículo, cada nivel de análisiscuenta en la actualidad con experiencias taninteresantes como dispares y la discrepanciano se da únicamente en el plano teórico, sinotambién en la forma en que se codifican lasinformaciones. El uso cada vez más extendidodel XML (lo que incluye también la traducciónde formatos antiguos a este formato)nos permite a este respecto compartir recursoscon mayor facilidad ahora que en el pasado,pero compatibilizar las diferentes informacionessigue resultando una tarea ardua.El contar con sistemas compatibles entresí nos ayudaría a reutilizar y mejorar recursosya existentes. Además, es un requisito indispensablepara poder realizar investigacionesque impliquen más de un nivel lingüístico.Este último paso facilitaría la resoluciónde muchos de los problemas aquí planteados.Un ejemplo claro es la mencionada segmentacióndel documento en unidades pertinenteslingüísticamente. Las experiencias con hablaespontánea demuestran que no es una tarea137


Manuel Alcántara Plafácil en ningún nivel, pero el uso combinadode la información obtenida en varios deellos nos está dando resultados prometedores(Alcántara, 2007).Un problema relacionado es el de la excesivaespecificidad de muchas anotaciones.Por poner un ejemplo, pocos proyectos de losmencionados en este artículo están diseñadospara etiquetar más de una lengua. De hecho,en la mayoría de los casos ni tan siquierase pretende cubrir una lengua completa, sinouna pequeña parte estrictamente delimitadapor rasgos como el dominio o el tipo de hablantes,dados por los objetivos inmediatosde cada proyecto. Esta especificidad dificultatambién el intercambio de información y, loque es aún más grave, impide la escalabilidadde los sistemas. Como es lógico, los estudioslingüísticos que estos corpus permiten tampocose pueden extrapolar a las característicasgenerales de la lengua.Nos encontramos en un momento positivoporque contamos, por primera vez, con corpusmultimodales y las posibilidades técnicasnecesarias para etiquetarlos incluyendo informaciónlingüística. Sin embargo, la escasez deexperiencias comunes y la necesidad de conseguirobjetivos en cada caso diferentes nossitúan en una posición en la que los avancesno son tan importantes como cabría esperarpor el interés y el trabajo dedicados.El progreso en la anotación del habla necesitaque nos esforcemos en encontrar una basecomún tanto en lo que se etiqueta como encómo se etiqueta. En otras ocasiones, comoocurrió con los corpus de lengua escrita, losestándares se han ido imponiendo de formanatural por sistemas de etiquetado que pordiversos motivos han gozado de una aceptaciónmayoritaria, pero parece que la rapidezde los desarrollos actuales recomiendala puesta en marcha de propuestas como lade, por ejemplo, la red europea de excelenciaK-Space 15 , dirigidas a acelerar ese procesode convergencia. Esfuerzos de estandarizacióncomo el ya mencionado de Eagles (yotros como el de la Text Encoding Initiative16 o el de la <strong>Red</strong> de Corpus Europeos deReferencia-NERC (Teubert, 1993)) son unabase de gran interés para este fin que deberíatenerse en cuenta para los futuros desarrollos.15 http://kspace.qmul.net/16 http://www.tei-c.org/10. AgradecimientosEl autor quiere mostrar aquí su agradecimientoa la citada red europea de excelenciaK-Space (Knowledge Space of semantic inferencefor automatic annotation and retrievalof multimedia content, FP6-027026) de laque forma parte y, especialmente, a los otrosmiembros del equipo del DFKI que participanen dicha red, Thierry Declerck y PaulBuitelaar. El trabajo de este artículo ha sidofinanciado con una beca posdoctoral delMinisterio de Educación y Ciencia.BibliografíaAlcántara, Manuel. 2005. Anotación y recuperaciónde información semántica eventivaen corpus. Ph.D. tesis, UniversidadAutónoma de Madrid.Alcántara, Manuel. 2007. Merging semanticsand prosody to structure spoken language.En Proceedings of the IWCS-7.Alcántara, Manuel y Thierry Declerck. 2007.Shallow semantic analysis of asr transcriptsassociated with video shots. EnProceedings of the IWCS-7.Anderson, A., M. Bader, E. Bard, E. Boyle,G.M. Doherty, S. Garrod, S. Isard,J. Kowtko, J. McAllister, J. Miller, C. Sotillo,H.S. Thompson, y R. Weinert. 1991.The hcrc map task corpus. Language andSpeech, 34.Austin, J.L. 1962. How to do Things WithWords. Harvard University Press.Brants, Thorsten. 2000. Tnt - a statisticalpart-of-speech tagger. En Proceedings ofthe Sixth Applied Natural Language ProcessingConference ANLP-2000.Brill, E. 1993. A Corpus-Based Approachto Language Learning. Ph.D. tesis, Philadelphia.Cresti, Emanuela y Massimo Moneglia, editores.2005. C-ORAL-ROM. Integrated ReferenceCorpora for Spoken Romance Language.Benjamins.Crystal, David. 1975. The English tone ofvoice: essays in intonation, prosody andparalanguage. Edward Arnold.de Rocha, Marco, 1997. Corpus-Based andComputational Approaches to DiscourseAnaphora, capítulo Corpus-Based Studyof Anaphora in English and Portuguese.UCL Press.138


La notación del habla en corpus de vídeoGonzález, Ana, Guillermo de la Madrid, ManuelAlcántara, Raúl de la Torre, y AntonioMoreno. 2004. Orality and difficultiesin the transcription of spoken corpora. EnIV International Conference on LanguageResources and Evaluation (LREC2004).Gross, Derek, James F. Allen, y David R.Traum. 1993. The Trains 91 Dialogues.University of Rochester.Grosz, B.J. y C.L. Sidner. 1986. Attention,intention, and the structure of discourse.Computational Linguistics, 12(3).Halliday, M.A.K. 1976. System and Functionin Language. Oxford University Press.Heeman, Peter A. y James F. Allen. 1995.The Trains spoken dialog corpus (CD-ROM). Linguistic Data Consortium.Hoekstra, H., M. Moortgat, B. Renmans,M. Schouppe, I. Schuurman, y T. van derWouden. 2002. Cgn syntactische annotatie.Informe técnico, Radboud UniversityNijmegen.itoh Ozaku, Hiromi, Akinori Abe, NoriakiKuwahara, Futoshi Naya, Kiyoshi Kogure,y Kaoru Sagara. 2005. Building dialoguecorpora for nursing activity analysis. EnProceedings of the LINC05.Kawaguchi, Nobuo, Shigeki Matsubara, KazuyaTakeda, y Fumitada Itakura. 2005.Ciair in-car speech corpus: Influence ofdriving status : Corpus-based speech technologies.IEICE transactions on informationand systems.Leech, G., R. Garside, y M. Bryant. 1994.Claws4: The tagging of the british nationalcorpus. En Proceedings of the 15th InternationalConference on ComputationalLinguistics (COLING 94).Llisterri, Joaquim. 1997. Transcripción, etiquetadoy codificación de corpus orales.Seminario de Industrias de la Lengua -Fundación Duques de Soria.Miller, J. y R. Weinert. 1998. SpontaneousSpoken Language. Syntax and Discourse.Oxford University Press.Moreno, Antonio. 1991. Un modelo computacionalbasado en la unificación para elanálisis y la generación de la morfologíadel español. Ph.D. tesis, UniversidadAutónoma de Madrid.Moreno, Antonio. 2002. La evolución de loscorpus de habla espontánea: la experienciadel lli-uam. En Actas de las SegundasJornadas de Tecnologías del Habla.Moreno, Antonio, Guillermo De la Madrid,Ana González, Jose María Guirao,Raul De la Torre, y Manuel Alcántara,2005. C-ORAL-ROM: Integrated ReferenceCorpora for Spoken Romance Languages,capítulo The Spanish corpus. Benjamins.Nakatani, C. H. y David R. Traum. 1999.Coding discourse structure in dialogue(version 1.0). Informe técnico, Universityof Maryland.Nakatani, Christine H., Barbara J. Grosz,David D. Ahn, y Julia Hirschberg. 1995.Instructions for annotating discourse. Informetécnico, Center for Research inComputing Technology.Teubert, W. 1993. Phonetic/phonemic andprosodic annotation. final report. Informetécnico, IDS Mannheim.Tsay, Jane S. 2005. Taiwan child languagecorpus: Data collection and annotation.En Fifth Workshop on Asian LanguageResources (ALR-05).139


Tesis


Resolución de la ambigüedad léxica mediante aprendizaje porcuantificación vectorial ∗Manuel García VegaDepartamento de InformáticaUniversidad de Jaénmgarcia@ujaen.esResumen: Tesis doctoral en Informática Realizada por Manuel García Vega y dirigidapor el Doctor L. Alfonso Ureña López (Univ. de Jaén). El acto de defensade tesis tuvo lugar en Jaén en diciembre de 2006 ante el tribunal formado por losdoctores Miguel Toro Bonilla (Univ. de Sevilla), Manuel Palomar Sanz (Univ. deAlicante), Lidia Moreno Boronat (Univ. Politécnica de Valencia), Andrés MontoyoGuijarro (Univ. de Alicante) y María Teresa Martín Valdivia (Univ. de Jaén). Lacalificación obtenida fue Sobresaliente Cum Laudem por unanimidad.Palabras clave: Desambiguación, <strong>Red</strong>es neuronales, LVQAbstract: PhD thesis in Computer Science written by Manuel García Vega underthe supervision of Dr. L. Alfonso Ureña López (Univ. of Jaén). The author wasexamined in December 2006 in Jaén by the committee formed by Miguel Toro Bonilla(Univ. of Sevilla), Manuel Palomar Sanz (Univ. of Alicante), Lidia Moreno Boronat(Univ. Politécnica of Valencia), Andrés Montoyo Guijarro (Univ. of Alicante) yMaría Teresa Martín Valdivia (Univ. of Jaén). The grade obtained was SobresalienteCum Laudem.Keywords: WSD, Neural Nets, LVQ1. IntroducciónLa desambiguación del sentido de las palabras(Word Sense Disambiguation) es el problemade asignar un sentido determinado auna palabra polisémica, usando su contexto.Este problema ha sido de interés, prácticamentedesde el comienzo de la informática,en los años 50. La desambiguación es una tareaintermedia y no un fin en sí misma. Enparticular, es muy útil, a veces imprescindible,para muchos problemas del PLN, comopor ejemplo la recuperación de información,la categorización de textos, la traducción automática...Los objetivos de este trabajo son:1. Implementar un desambiguador del sentidode las palabras basado en el Modelode Espacio Vectorial optimizando lospesos de los vectores del entrenamientousando la red neuronal LVQ (LearningVector Quantization) del modelo neuronalsupervisado de Kohonen.2. Proponer un método uniforme de integraciónde recursos que sirvan para el∗ Este trabajo ha sido parcialmente financiadopor los proyectos FIT-150500-2002-416, FIT-150500-2003-412 y TIC2003-07158-C04-04entrenamiento de la red. Los parámetrosde la red LVQ han sido optimizados parael problema de la desambiguación.En este trabajo se ha demostrado que lasredes neuronales, concretamente los modelosde Kohonen, resuelven brillantemente el problemade la resolución de la ambigüedad léxica,aportando robustez, porque la red LVQes insensible a pequeños cambios observándoseunos resultados homogéneos independientementedel entrenamiento; flexibilidad, porquees fácilmente aplicable a cualquier tareade PLN; escalabilidad, porque pueden introducirsemultitud de textos de entrenamientopara ajustarlo a cualquier dominio y efectividad,porque los resultados obtenidos soncomparables y en muchos casos superan a losmétodos tradicionales utilizados para resolverlos mismos problemas.Se ha calculado los parámetros óptimos deconfiguración de la red LVQ para la tarea dedesambiguación, maximizando la precisión, elrecall y la cobertura.Se han integrado el corpus SemCor y labase de datos léxica WordNet. Además, seha aportado un método de integración automáticade cualquier corpus.ISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Manuel García VegaLos experimentos realizados muestran elbuen comportamiento de esta red para el problemaconcreto de la desambiguación.2. Estructura de la tesisLa estructura sigue un esquema clásico, introduciendoel problema, la motivación y lascontribuciones obtenidos.En el capítulo 2 se describe detalladamenteel problema de la desambiguación yla terminología que es comúnmente usada.Así mismo, se describen con detalle los recursoslingüísticos que se usan, concretamentecorpus de textos y bases de datos léxicas.A continuación, se explican las principalesmedidas para la evaluación de los sistemasdesambiguadores. Se describe la organizaciónSenseval que actualmente es el principal mediode evaluación para cualquier sistema deresolución de la ambigüedad léxica y se describenlos principales métodos de desambiguación,así como los mejores desambiguadorespresentados en las tres ediciones de Senseval.El capítulo 3 trata de manera generallas redes neuronales artificiales, clasificándolassegún diferentes criterios, definiendo suspartes principales y describiendo sus característicasmás importantes. A continuación,se detallan los principales métodos de entrenamiento,haciendo hincapié en su caráctersupervisado o no supervisado. Se sigue conla cuantificación vectorial, como base matemáticadel aprendizaje LVQ. El modelo deKohonen es presentado a continuación, enlazandola cuantificación vectorial y el aprendizajecompetitivo para producir la red neuronalLVQ.El capítulo 4 está dedicado a describir eldesambiguador. Comienza explicando el modelodel espacio vectorial, que da el soportematemático a la red neuronal. Se detallala integración del modelo matemático con lared LVQ y cómo se ha de realizar el entrenamiento.A continuación, se incluyen en elentrenamiento las fuentes lingüísticas disponibles.En primer lugar, el corpus SemCor,con el que se hace un experimento para comprobarsu validez. Después, se detalla cómointegrar WordNet en el entrenamiento y seexperimenta con los datos que aporta. Continúacon la integración de ambos recursosa la vez. Para terminar, se estudian a fondolos distintos parámetros de la red LVQ paraoptimizar su comportamiento.En el capítulo 5 se evalúa el desambiguadorque se ha construido. Primero, se simulauna participación en la competición Senseval-2 en la tarea de English Lexical Sample yposteriormente se detalla la participación enSenseval-3, concretamente a las tareas de EnglishLexical Sample y de English All Words.En el capítulo 6 se detallan las conclusiones,se explican las principales aportacionespresentadas en esta memoria, así como laslíneas futuras de investigación como continuaciónde este trabajo. Finalmente, se incluyeuna recopilación de trabajos publicados enrevistas y congresos nacionales e internacionalesdurante el desarrollo de esta memoria yrelacionadas con ella.3. Aportaciones de lainvestigaciónLas principales contribuciones de este trabajode investigación son:Se ha propuesto un desambiguador basadoen el modelo neuronal de Kohonen,usando la red LVQ.Proponemos un desambiguador que puedeafinarse tanto para precisión como pararecall, ajustando adecuadamente uncierto valor umbral para la probabilidadde acierto del sentido desambiguado.Se ha afinado el algoritmo LVQ para unamayor efectividad en el problema de laresolución de la ambigüedad léxica, fundamentandoel cálculo en el comportamientodel desambiguador con experimentosya contrastados.El desambiguador propuesto es muy robusto,mostrando un comportamientohomogéneo en los distintos experimentosrealizados donde los dominios semánticosde los textos objeto de estudio eranmuy diversos.Se ha construido un desambiguador independientede la lengua, siempre ycuando se disponga de los recursos necesarios:lexicón y textos etiquetados enla lengua objeto.Se ha definido un método de integraciónde recursos lingüísticos heterogéneos parasu uso como entrenamiento de la redLVQ, que permite la incorporación de informaciónespecífica en cualquier dominiosemántico.144


Integración de técnicas de clasificación de texto y modelado deusuario para la personalización en servicios de noticiasAlberto Díaz EstebanGrupo de Diseño y Optimización de Sistemas InformáticosITIS CES Felipe II - UCMC/ Capitán, 39, Aranjuez, Madrid 28300adiaz@cesfelipesegundo.comResumen: Tesis doctoral en Informática realizada por Alberto Díaz Esteban bajo la direcciónde los doctores Pablo Gervás Gómez-Navarro (Univ. Complutense de Madrid) y Manuel deBuenaga Rodríguez (Univ. Europea). El acto de defensa de la tesis tuvo lugar el 13 de Julio de2005 ante el tribunal formado por los doctores Carmen Fernández Chamizo (Univ. Complutensede Madrid), Manuel Palomar Sanz (Univ. de Alicante), Juan Pavón Mestras (Univ.Complutense de Madrid), Julio Gonzalo Arroyo (UNED), David Bueno Vallejo (Univ. deMálaga). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad.Palabras clave: Personalización de contenidos Web, Modelo de usuario, EvaluaciónAbstract: PhD Thesis in Computer Science written by Alberto Díaz Esteban under thesupervision of Dr. Pablo Gervás Gómez-Navarro (Univ. Complutense de Madrid) and Dr.Manuel de Buenaga Rodríguez (Univ. Europea). The author was examined in July 13 th 2005 bythe commitee formed by Dr. Carmen Fernández Chamizo (Univ. Complutense de Madrid), Dr.Manuel Palomar Sanz (Univ. de Alicante), Dr. Juan Pavón Mestras (Univ. Complutense deMadrid), Dr. Julio Gonzalo Arroyo (UNED), Dr. David Bueno Vallejo (Univ. de Málaga). Thegrade obtained was Sobresaliente Cum Laude.Keywords: Web contents personalization, User model, Evaluation1 IntroducciónLos contenidos Web aparecen de muy diversasmaneras en distintos dominios de aplicaciónpero en la mayoría de ellos la forma depresentación de la información es la misma paratodos los usuarios, es decir, esos contenidos sonestáticos en el sentido de que no se adaptan acada usuario. La personalización de contenidoses una técnica que trata de eliminar lasobrecarga de información mediante laadaptación de los contenidos a cada tipo deusuario.En esta tesis se muestra un enfoqueintegrado de personalización de contenidosWeb, aplicado a servicios de noticias, basado entres funcionalidades principales: selección decontenidos, adaptación del modelo de usuario ypresentación de resultados. Todos estosprocesos están basados en la representación delos intereses del usuario que estarán reflejadasen un perfil o modelo de usuario. La selecciónde contenidos se refiere a la elección entretodos los documentos de entrada de aquellosmás interesantes para un usuario dado. Laadaptación del modelo de usuario es necesariaya que las necesidades de los usuarios cambiana lo largo del tiempo, sobre todo comoresultado de su interacción con la informaciónque reciben. La presentación de resultadosconsiste en, una vez seleccionados loselementos de información que más le interesana un usuario, mostrar un documento resultadoque contenga, para cada elemento seleccionado,un extracto que sea indicativo de su contenido.En particular, se ha generado un resumenpersonalizado por cada elemento deinformación seleccionado para cada usuario.El modelo de usuario utilizado integracuatro tipos de sistemas de referencia quepermiten representar los intereses de losusuarios desde diferentes puntos de vista. Estosintereses están divididos en dos tipos: interesesa largo plazo e intereses a corto plazo. Losprimeros representan intereses del usuario quepermanecen constantes a lo largo del tiempo,mientras que los segundos representan losISSN: 1135-5948© Sociedad Española para el Procesamiento del Lenguaje Natural


Alberto Díaz Estebanintereses que se van modificando. A su vez, elmodelo a largo plazo utiliza tres métodos declasificación que permiten al usuario definir susnecesidades de información desde 3 puntos devista diferentes: un sistema de clasificacióndependiente del dominio, donde losdocumentos están preclasificados por el autordel documento (p.ej.: secciones en unperiódico), un sistema de clasificaciónindependiente del dominio, obtenido a partir delas categorías del primer nivel de Yahoo!España y un conjunto de palabras clave.Los resultados se muestran a los usuarios enforma de resúmenes personalizados. Estopermite un ahorro de tiempo a los usuarios a lahora de detectar si un documento realmente leinteresa sin tener que leerse el texto completo.Las técnicas utilizadas para permitir laadaptación de los intereses de los usuarios sebasan en la extracción de los términos másutilizados en los documentos que el usuarioindica como relevantes de entre losseleccionados y presentados por el sistema.La evaluación de los sistemas depersonalización es especialmente complejadebido a que son necesarias las opiniones dedistintos usuarios para poder obtenerconclusiones relevantes sobre sufuncionamiento. En este trabajo se propone unmarco de evaluación de sistemas depersonalización de contenidos que permiteestablecer la efectividad del sistema (evaluacióncuantitativa) y la satisfacción de los usuarios(evaluación cualitativa) cuando se utilizandistintas propuestas de personalización.Para evaluar los distintos procesos depersonalización se han generado variascolecciones de evaluación donde se almacenanlos juicios de relevancia de varios usuariosdurante varios días de utilización del sistema.Estas colecciones han permitido probar losdistintos enfoques propuestos para determinarcuál de ellos era la mejor elección. Ademásestas colecciones pueden ser utilizadasposteriormente por otros investigadores paracomparar los resultados de sus técnicas depersonalización.Las evaluaciones realizadas han mostradoque la propuesta de personalización basada enla combinación de modelos de usuario a largo ycorto plazo, con resúmenes personalizadoscomo forma de presentar los resultados finales,permite disminuir la sobrecarga de informaciónde los usuarios, independientemente deldominio y del idioma, en un sistema depersonalización de contenidos Web aplicado aservicios de noticias.2 Estructura de la tesisEn el capítulo inicial se presentan los objetivosperseguidos y la motivación para el desarrollode la tesis.En el Capítulo 2 se revisan los conceptosfundamentales de los sistemas depersonalización de contenidos, primero semuestran las distintas formas de representarcontenidos, después distintas formas derepresentar modelos de usuario yposteriormente se divide el proceso depersonalización en las 3 funcionalidadesprincipales: selección de contenidos, adaptacióndel modelo de usuario y presentación deresultados, y para cada una de ellas se presentantanto las técnicas disponibles como los métodosde evaluación utilizados para juzgar suefectividad.En el Capítulo 3 se describen las técnicaspropuestas para realizar la personalización decontenidos Web. En primer lugar se presenta laforma elegida para representar la informaciónmanejada por el sistema. A continuación semuestra la forma de modelar a los usuarios. Porúltimo se explican las técnicas utilizadas encada uno de los procesos de personalización:selección, adaptación y presentación.El Capítulo 4 detalla la metodología deevaluación utilizada en cada uno de losprocesos de personalización, indicando lasmétricas más adecuadas para cada tarea.En el Capítulo 5 se describen las distintascolecciones de evaluación utilizadas en losdistintos experimentos.En el Capítulos 6 se describen las distintasversiones desarrolladas de sistemas depersonalización de noticias. En cada una deellas se muestran las técnicas concretasutilizadas, los experimentos realizados y losresultados y conclusiones obtenidos.En el Capítulo 7 se realiza una discusión delos resultados obtenidos, comparando losdistintos sistemas de personalización entre sí ycon el estado del arte. También se discute laextrapolación del sistema a un ámbitomultilingüe.Por último en el Capítulo 8 se resumen lasconclusiones principales y se proponen algunaslíneas de trabajo futuro.146

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!