03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 12 -<br />

4. Спроектировать и реализовать программный комплекс поиска<br />

семантически близких слов; разработать способы численной<br />

оценки наборов синонимов.<br />

Методы исследования. Для решения поставленных задач в работе<br />

используются методы кластерного анализа [43], [70], методы теории графов<br />

[19], [28], [29], [38], [45], [46], [49], элементы теории сложности алгоритмов<br />

[5], [23], [32], [42], стандарты открытых информационных сред. При<br />

разработке программного обеспечения использовалась технология объектноориентированного<br />

программирования (Java, C++) [13], язык<br />

структурированных запросов (SQL) управления данными в реляционных<br />

базах данных [26], программная среда для обработки текстов на<br />

естественном языке (GATE) [92], [98].<br />

Научная новизна<br />

1. Новизна предложенного подхода к поиску семантически<br />

близких слов в проблемно-ориентированном корпусе<br />

заключается в том, что кроме гиперссылок дополнительно<br />

учитывается метаинформация документов (ключевые слова,<br />

категории).<br />

2. Новизна адаптированного HITS алгоритма состоит в том, что<br />

при поиске наиболее похожих документов в корпусе<br />

учитываются не только гиперссылки, но и категории, что<br />

позволяет применить механизм иерархической кластеризации,<br />

объединяющий семантически близкие слова в смысловые<br />

группы.<br />

3. Новый способ построения корневого набора документов<br />

в адаптированном HITS алгоритме заключается в выборе<br />

документов, связанных гиперссылками с исходным документом<br />

(заданным пользователем), что позволяет отказаться от шага<br />

«предварительный веб-поиск документов».<br />

4. Коэффициент Спирмена модифицирован для численного<br />

сравнения списков семантически близких слов; отличие<br />

заключается в возможности сравнивать списки разной длины.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!