08.05.2013 Views

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.1 Tratamiento <strong>lógico</strong>-conceptual y representación semántica 81<br />

Según matiza Dick (1991), los conceptos representan una entidad, acción<br />

o estado que pueden ser descritos en el lenguaje, y las relaciones<br />

conceptuales muestran los roles que cada entidad juega. Una de las conclusiones<br />

a las que llega en esta tesis doctoral viene determinada en la<br />

frase “a concept is the basic unit for representing knowledge”. Dada esta<br />

conclusión y, en la línea de otros trabajos de investigación previos<br />

en el dominio abierto (Baziz et al. , 2005) (Ramakrishnanan & Bhattacharyya,<br />

2003) (Zhang & Li, 2005) (Gomez-Hidalgo et al. , 2004), que<br />

también utilizan los conceptos asociados a las palabras para representar<br />

formalmente el texto, en esta tesis se ha optado por la continuación de<br />

esta tendencia consistente en la extracción de la información conceptual<br />

de las unidades léxicas <strong>del</strong> texto para su representación formal. De este<br />

modo, se incorpora a la forma lógica la información conceptual asociada<br />

a sus predicados conceptualizados, tanto en el dominio abierto como en<br />

cualquier dominio restringido.<br />

Para tratar de entender mejor este proceso, en el marco <strong>del</strong> tratamiento<br />

semántico de la forma lógica, a continuación se presentan las propiedades<br />

explotadas de los recursos onto<strong>lógico</strong>s y tesauros tanto en el dominio<br />

abierto como en los dominios restringidos. En el caso particular, en el<br />

dominio abierto, el recurso utilizado es WordNet, mientras que en el<br />

ámbito <strong>del</strong> dominio restringido, se introduce el dominio médico, explotando<br />

el recurso UMLS.<br />

4.1.1 WordNet y EuroWordNet<br />

En la base de datos léxica WordNet (Miller, 1995), el núcleo fundamental<br />

es el synset. Un synset se define como un conjunto de palabras<br />

que tienen el mismo significado (sinónimos). Debido a ello, un synset<br />

contiene una o más palabras con sentido (también llamadas conceptos)<br />

y cada palabra con sentido (concepto) pertenece única y exclusivamente<br />

a un sólo synset. Dicho de otro modo, cada concepto tiene asociado<br />

exactamente una palabra que lo representa léxicamente y, cada palabra<br />

puede estar relacionada con al menos un concepto. Cada synset tiene un<br />

identificador exclusivo formado por una combinación de dígitos. Como<br />

ejemplo, la tabla 4.1 muestra los synsets <strong>del</strong> sustantivo car.<br />

WordNet es un recurso que está disponible en multitud de lenguas (inglés,<br />

español, catalán, euskera, checo,...). Con el propósito de interconectar<br />

diferentes lenguas europeas, se desarrolló el recurso EuroWordNet<br />

(Vossen, 1998) (Vossen, 2002). El objetivo de EuroWordNet es la construcción<br />

de un recurso léxico-semántico de diversas lenguas, integradas<br />

e interconectadas, tomando WordNet como punto de referencia. Las<br />

conexiones entre los WordNet de cada lengua se realiza <strong>mediante</strong> equi-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!