Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...

More documents

Recommendations

Info

Resumo Não há grandes dúvidas que a existência de uma base de conhecimento léxicosemântico de grande cobertura tem um impacto positivo no processamento computacional da língua a que é dedicada. É isto que acontece com a WordNet de Princeton, para o inglês que, desde a sua criação, tem sido utilizada num amplo leque de tarefas ligadas ao processamento de linguagem natural. No entanto, a WordNet é um recurso criado manualmente, por especialistas. Assim, apesar de se garantir um recurso altamente confiável, a sua criação é dispendiosa e morosa, o que se reflecte ao nível da cobertura e crescimento do recurso. Para o português, existem várias bases de conhecimento léxico-semanântico, sem que, no entanto, nenhuma tenha alcançado o sucesso que a WordNet teve para o inglês. Além disso, todos os recursos anteriores têm limitações, tais como não lidarem com diferentes sentidos da mesma palavra ou terem uma cobertura limitada (p.e. apenas substantivos ou relações de sinonímia) até restrições ao nível da sua disponibilização e utilização. Desta forma, definimos como o principal objectivo desta investigação a construção automática do Onto.PT, uma ontologia lexical para o português, estruturada de forma semelhante à WordNet. A Onto.PT contém synsets – grupos de palavras sinónimas que são lexicalizações de um conceito – e relações semânticas, entre synsets. Para tal, tiramos partido de técnicas de extracção de informação e focámo-nos no desenvolvimento de ferramentas computacionais para a extracção e organização de conhecimento lexico-semântico, com base em informação textual. Começamos por explorar recursos textuais para a obtenção de relações, que ligam itens lexicais de acordo com os seus possíveis sentidos. Os dicionários foram a nossa primeira escolha, por se encontrarem estruturados em palavras e significados, e também por cobrirem uma parte considerável do léxico. Mas como a língua é ambígua, um simples item lexical, identificado pela sua forma ortográfica, é muitas vezes insuficiente para referir um conceito. Por isso, num segundo passo, utilizamos como ponto de partida um tesauro baseado em synsets, e criado manualmente para o português. Os synsets desse tesauro são aumentados com novos sinónimos obtidos no primeiro passo, e novos synsets são descobertos através da identificação de agrupamentos de palavras (vulgo clusters) nas relações de sinonímia que sobram. No último passo, tiramos partido de todas as relações extraídas para associar os argumentos de cada relação ao synset mais adequado, tendo em conta o sentido do argumento envolvido na relação. Nesta tese, descrevemos cada um dos passos anteriores, e apresentamos os resultados obtidos, juntamente com a sua avaliação, quando aplicados para o português. Cada passo é uma contribuição para a construção e enriquecimento automáticos de bases de conhecimento léxico-semântico, e resulta num novo recurso, nomeadamente: uma rede lexical; um tesauro baseado em synsets difusos e um tesauro simples; e o
Page 1: PhD Thesis Doctoral Program in Info
Page 5: Preface About six years ago, almost
Page 10 and 11: Onto.PT, uma ontologia lexical, est
Page 12 and 13: 4.2.3 Regularities in the Definitio
Page 15 and 16: List of Figures 2.1 Entry for the w
Page 17 and 18: List of Tables 2.1 Replacement of h
Page 19: Glossary • AI: Artificial Intelli
Page 22 and 23: 4 Chapter 1. Introduction too much
Page 24 and 25: 6 Chapter 1. Introduction by the co
Page 26 and 27: 8 Chapter 1. Introduction Chapter 5
Page 28 and 29: 10 Chapter 2. Background Knowledge
Page 45 and 46: Chapter 3 Related Work In this chap
Page 47 and 48: 3.1. Lexical Knowledge Bases 29 nee
Page 49 and 50: 3.1. Lexical Knowledge Bases 31 fra
Page 51 and 52: 3.1. Lexical Knowledge Bases 33 3.1
Page 53 and 54: 3.1. Lexical Knowledge Bases 35 Ope
Page 55 and 56: 3.1. Lexical Knowledge Bases 37 Res
Page 57 and 58: 3.2. Lexical-Semantic Information E
Page 59 and 60:
3.2. Lexical-Semantic Information E
Page 61 and 62:
Page 63 and 64:
Page 65 and 66:
Page 67 and 68:
Page 69 and 70:
Page 71 and 72:
3.3. Enrichment and Integration of
Page 73 and 74:
3.4. Remarks on this section 55 wor
Page 75 and 76:
Chapter 4 Acquisition of Semantic R
Page 77 and 78:
4.1. Semantic relations from defini
Page 79 and 80:
4.2. A large lexical network for Po
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
4.3. Discussion 77 Figure 4.5: Lexi
Page 97 and 98:
Chapter 5 Synset Discovery As refer
Page 99 and 100:
5.2. The (fuzzy) clustering algorit
Page 101 and 102:
5.3. A Portuguese thesaurus from di
Page 103 and 104:
Page 105 and 106:
Page 107 and 108:
Page 109 and 110:
Page 111:
5.4. Discussion 93 discovered synse
Page 114 and 115:
96 Chapter 6. Thesaurus Enrichment
Page 116 and 117:
Page 118 and 119:
Page 120 and 121:
Page 122 and 123:
Page 124 and 125:
Page 126 and 127:
Page 128 and 129:
Page 131 and 132:
Chapter 7 Moving from term-based to
Page 133 and 134:
7.1. Ontologising algorithms 115 Ea
Page 135 and 136:
7.1. Ontologising algorithms 117 Ad
Page 137 and 138:
7.2. Ontologising performance 119 F
Page 139 and 140:
7.2. Ontologising performance 121
Page 141 and 142:
7.2. Ontologising performance 123 T
Page 143 and 144:
7.2. Ontologising performance 125 A
Page 145 and 146:
7.2. Ontologising performance 127 %
Page 147:
7.3. Discussion 129 • The gold re
Page 150 and 151:
132 Chapter 8. Onto.PT: a lexical o
Page 152 and 153:
Page 154 and 155:
Page 156 and 157:
Page 158 and 159:
Page 160 and 161:
Page 162 and 163:
Page 164 and 165:
Page 166 and 167:
Page 168 and 169:
Page 170 and 171:
Page 172 and 173:
Page 175 and 176:
Chapter 9 Final discussion The rese
Page 177 and 178:
9.1. Contributions 159 - Anton Pér
Page 179 and 180:
9.2. Future work 161 more than cues
Page 181:
9.3. Concluding remarks 163 reform
Page 184 and 185:
166 References Banko, M., Cafarella
Page 186 and 187:
168 References Clark, P., Fellbaum,
Page 188 and 189:
170 References Gale, W. A., Church,
Page 190 and 191:
172 References EACL 2012, pages 580
Page 192 and 193:
174 References Levin, B. (1993). En
Page 194 and 195:
176 References Navigli, R. (2009a).
Page 196 and 197:
178 References Language Resource an
Page 198 and 199:
180 References Shi, L. and Mihalcea
Page 200 and 201:
182 References volume 85 of CRPIT,
Page 202 and 203:
184 Appendix A. Description of the
Page 204 and 205:
186 Appendix A. Description of the
Page 207 and 208:
Appendix B Coverage of EuroWordNet
Page 209 and 210:
Table B.1 - continued from previous
Page 211 and 212:
Table B.2 - continued from previous
show all

Onto.PT: Towards the Automatic Construction of a Lexical Ontology ...

Create successful ePaper yourself

Delete template?

Save as template?