24.07.2013 Views

Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...

Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...

Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Resumo<br />

Não há grandes dúvidas que a existência de uma base de conhecimento léxicosemântico<br />

de grande cobertura tem um impacto positivo no processamento computacional<br />

da língua a que é dedicada. É isto que acontece com a WordNet de<br />

Princeton, para o inglês que, desde a sua criação, tem sido utilizada num amplo<br />

leque de tarefas ligadas ao processamento de linguagem natural. No entanto, a<br />

WordNet é um recurso criado manualmente, por especialistas. Assim, apesar de se<br />

garantir um recurso altamente confiável, a sua criação é dispendiosa e morosa, o que<br />

se reflecte ao nível da cobertura e crescimento do recurso.<br />

Para o português, existem várias bases de conhecimento léxico-semanântico, sem<br />

que, no entanto, nenhuma tenha alcançado o sucesso que a WordNet teve para<br />

o inglês. Além disso, todos os recursos anteriores têm limitações, tais como não<br />

lidarem com diferentes sentidos da mesma palavra ou terem uma cobertura limitada<br />

(p.e. apenas substantivos ou relações de sinonímia) até restrições ao nível da<br />

sua disponibilização e utilização.<br />

Desta forma, definimos como o principal objectivo desta investigação a<br />

construção automática do <strong>Onto</strong>.<strong>PT</strong>, uma ontologia lexical para o português, estruturada<br />

de forma semelhante à WordNet. A <strong>Onto</strong>.<strong>PT</strong> contém synsets – grupos de<br />

palavras sinónimas que são lexicalizações de um conceito – e relações semânticas,<br />

entre synsets. Para tal, tiramos partido de técnicas de extracção de informação e<br />

focámo-nos no desenvolvimento de ferramentas computacionais para a extracção e<br />

organização de conhecimento lexico-semântico, com base em informação textual.<br />

Começamos por explorar recursos textuais para a obtenção de relações, que<br />

ligam itens lexicais de acordo com os seus possíveis sentidos. Os dicionários foram a<br />

nossa primeira escolha, por se encontrarem estruturados em palavras e significados,<br />

e também por cobrirem uma parte considerável do léxico. Mas como a língua é<br />

ambígua, um simples item lexical, identificado pela sua forma ortográfica, é muitas<br />

vezes insuficiente para referir um conceito. Por isso, num segundo passo, utilizamos<br />

como ponto de partida um tesauro baseado em synsets, e criado manualmente para<br />

o português. Os synsets desse tesauro são aumentados com novos sinónimos obtidos<br />

no primeiro passo, e novos synsets são descobertos através da identificação de<br />

agrupamentos de palavras (vulgo clusters) nas relações de sinonímia que sobram.<br />

No último passo, tiramos partido de todas as relações extraídas para associar os<br />

argumentos de cada relação ao synset mais adequado, tendo em conta o sentido do<br />

argumento envolvido na relação.<br />

Nesta tese, descrevemos cada um dos passos anteriores, e apresentamos os resultados<br />

obtidos, juntamente com a sua avaliação, quando aplicados para o português.<br />

Cada passo é uma contribuição para a construção e enriquecimento automáticos de<br />

bases de conhecimento léxico-semântico, e resulta num novo recurso, nomeadamente:<br />

uma rede lexical; um tesauro baseado em synsets difusos e um tesauro simples; e o

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!