Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...
Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...
Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Resumo<br />
Não há grandes dúvidas que a existência de uma base de conhecimento léxicosemântico<br />
de grande cobertura tem um impacto positivo no processamento computacional<br />
da língua a que é dedicada. É isto que acontece com a WordNet de<br />
Princeton, para o inglês que, desde a sua criação, tem sido utilizada num amplo<br />
leque de tarefas ligadas ao processamento de linguagem natural. No entanto, a<br />
WordNet é um recurso criado manualmente, por especialistas. Assim, apesar de se<br />
garantir um recurso altamente confiável, a sua criação é dispendiosa e morosa, o que<br />
se reflecte ao nível da cobertura e crescimento do recurso.<br />
Para o português, existem várias bases de conhecimento léxico-semanântico, sem<br />
que, no entanto, nenhuma tenha alcançado o sucesso que a WordNet teve para<br />
o inglês. Além disso, todos os recursos anteriores têm limitações, tais como não<br />
lidarem com diferentes sentidos da mesma palavra ou terem uma cobertura limitada<br />
(p.e. apenas substantivos ou relações de sinonímia) até restrições ao nível da<br />
sua disponibilização e utilização.<br />
Desta forma, definimos como o principal objectivo desta investigação a<br />
construção automática do <strong>Onto</strong>.<strong>PT</strong>, uma ontologia lexical para o português, estruturada<br />
de forma semelhante à WordNet. A <strong>Onto</strong>.<strong>PT</strong> contém synsets – grupos de<br />
palavras sinónimas que são lexicalizações de um conceito – e relações semânticas,<br />
entre synsets. Para tal, tiramos partido de técnicas de extracção de informação e<br />
focámo-nos no desenvolvimento de ferramentas computacionais para a extracção e<br />
organização de conhecimento lexico-semântico, com base em informação textual.<br />
Começamos por explorar recursos textuais para a obtenção de relações, que<br />
ligam itens lexicais de acordo com os seus possíveis sentidos. Os dicionários foram a<br />
nossa primeira escolha, por se encontrarem estruturados em palavras e significados,<br />
e também por cobrirem uma parte considerável do léxico. Mas como a língua é<br />
ambígua, um simples item lexical, identificado pela sua forma ortográfica, é muitas<br />
vezes insuficiente para referir um conceito. Por isso, num segundo passo, utilizamos<br />
como ponto de partida um tesauro baseado em synsets, e criado manualmente para<br />
o português. Os synsets desse tesauro são aumentados com novos sinónimos obtidos<br />
no primeiro passo, e novos synsets são descobertos através da identificação de<br />
agrupamentos de palavras (vulgo clusters) nas relações de sinonímia que sobram.<br />
No último passo, tiramos partido de todas as relações extraídas para associar os<br />
argumentos de cada relação ao synset mais adequado, tendo em conta o sentido do<br />
argumento envolvido na relação.<br />
Nesta tese, descrevemos cada um dos passos anteriores, e apresentamos os resultados<br />
obtidos, juntamente com a sua avaliação, quando aplicados para o português.<br />
Cada passo é uma contribuição para a construção e enriquecimento automáticos de<br />
bases de conhecimento léxico-semântico, e resulta num novo recurso, nomeadamente:<br />
uma rede lexical; um tesauro baseado em synsets difusos e um tesauro simples; e o