Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 12 -<br />
4. Спроектировать и реализовать программный комплекс поиска<br />
семантически близких слов; разработать способы численной<br />
оценки наборов синонимов.<br />
Методы исследования. Для решения поставленных задач в работе<br />
используются методы кластерного анализа [43], [70], методы теории графов<br />
[19], [28], [29], [38], [45], [46], [49], элементы теории сложности алгоритмов<br />
[5], [23], [32], [42], стандарты открытых информационных сред. При<br />
разработке программного обеспечения использовалась технология объектноориентированного<br />
программирования (Java, C++) [13], язык<br />
структурированных запросов (SQL) управления данными в реляционных<br />
базах данных [26], программная среда для обработки текстов на<br />
естественном языке (GATE) [92], [98].<br />
Научная новизна<br />
1. Новизна предложенного подхода к поиску семантически<br />
близких слов в проблемно-ориентированном корпусе<br />
заключается в том, что кроме гиперссылок дополнительно<br />
учитывается метаинформация документов (ключевые слова,<br />
категории).<br />
2. Новизна адаптированного HITS алгоритма состоит в том, что<br />
при поиске наиболее похожих документов в корпусе<br />
учитываются не только гиперссылки, но и категории, что<br />
позволяет применить механизм иерархической кластеризации,<br />
объединяющий семантически близкие слова в смысловые<br />
группы.<br />
3. Новый способ построения корневого набора документов<br />
в адаптированном HITS алгоритме заключается в выборе<br />
документов, связанных гиперссылками с исходным документом<br />
(заданным пользователем), что позволяет отказаться от шага<br />
«предварительный веб-поиск документов».<br />
4. Коэффициент Спирмена модифицирован для численного<br />
сравнения списков семантически близких слов; отличие<br />
заключается в возможности сравнивать списки разной длины.