Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
- 6 -<br />
(similarity search) включает такие (на первый взгляд разные, но общие по<br />
способам решения) задачи, как поиск похожих текстовых документов, поиск<br />
семантически близких слов, поиск похожих вершин графа. Анализ работ в<br />
области вычислительной лингвистики показал большое разнообразие<br />
алгоритмов, предлагающих решение этих задач (алгоритм HITS [125],<br />
алгоритм PageRank [85] (и его модификация Green [145]), алгоритм<br />
распределения рангов ArcRank [174], ESA [103], алгоритм извлечения<br />
синонимов из толкового словаря [174], метод извлечения контекстно<br />
связанных слов [122], [146] и др.). Поиск похожих документов также может<br />
являться подэтапом алгоритма поиска документов по запросу [22].<br />
Объектом исследования является синонимия и семантическая близость<br />
слов. Два текста связаны гиперссылкой, если один документ упоминает ( то<br />
есть ссылается на) другой текст. Тематическая направленность каждого<br />
текста определена экспертом, который присваивает одну или несколько<br />
категорий тексту 1 .<br />
Под семантически близкими словами подразумеваются слова с близким<br />
значением, встречающиеся в одном контексте. Более строго и формально<br />
семантически близкие слова определяются ниже через понятия авторитетных<br />
и хаб-страниц 2 . Представляемая в работе программная система поиска<br />
семантически близких слов относится к семантическим 3 , поскольку<br />
1 Связь, осуществляемая гиперссылкой, не имеет семантики, то есть не описывает смысла этой связи (см.<br />
[44], а также http://ru.wikipedia.org/wiki/Семантическая_сеть). Однако категории представляют<br />
однородную (один тип отношений – родо-видовые) бинарную (связаны два объекта) семантическую<br />
сеть. Иной подход предлагается в работе [54], где семантические элементы считаются семантически<br />
связанными, если они связаны отношением «ссылается». Семантическими элементами названы<br />
дидактические единицы контента, например «лекция», «определение», «теорема», «термин».<br />
2 См. определения авторитетных и хаб-страниц в главе 1 в подразделе «Алгоритм HITS» на стр. 27, см.<br />
также подраздел «Поиск синонимов с помощью HITS алгоритма» на стр. 74. Заметим, что слов хаб<br />
встречается в отечественной научной литературе, например, «термин-хаб» в работе [11].<br />
3 «Семантическими принято считать системы, в которых в процессе анализа содержания текста делаются<br />
попытки учесть не только лингвосемантические, но и логико-семантические отношения между<br />
языковыми объектами. Кроме того, контекст, определяющий лингвосемантические отношения и в<br />
обычных системах синтаксического анализа не выходящий за пределы предложения, в семантических<br />
системах распространяется на уровни дискурса и текста. Наконец, предполагается, что система<br />
семантического анализа должна учитывать как сведения о данной предметной области, так и её связи с<br />
внешним миром в целом» [30].