03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- 6 -<br />

(similarity search) включает такие (на первый взгляд разные, но общие по<br />

способам решения) задачи, как поиск похожих текстовых документов, поиск<br />

семантически близких слов, поиск похожих вершин графа. Анализ работ в<br />

области вычислительной лингвистики показал большое разнообразие<br />

алгоритмов, предлагающих решение этих задач (алгоритм HITS [125],<br />

алгоритм PageRank [85] (и его модификация Green [145]), алгоритм<br />

распределения рангов ArcRank [174], ESA [103], алгоритм извлечения<br />

синонимов из толкового словаря [174], метод извлечения контекстно<br />

связанных слов [122], [146] и др.). Поиск похожих документов также может<br />

являться подэтапом алгоритма поиска документов по запросу [22].<br />

Объектом исследования является синонимия и семантическая близость<br />

слов. Два текста связаны гиперссылкой, если один документ упоминает ( то<br />

есть ссылается на) другой текст. Тематическая направленность каждого<br />

текста определена экспертом, который присваивает одну или несколько<br />

категорий тексту 1 .<br />

Под семантически близкими словами подразумеваются слова с близким<br />

значением, встречающиеся в одном контексте. Более строго и формально<br />

семантически близкие слова определяются ниже через понятия авторитетных<br />

и хаб-страниц 2 . Представляемая в работе программная система поиска<br />

семантически близких слов относится к семантическим 3 , поскольку<br />

1 Связь, осуществляемая гиперссылкой, не имеет семантики, то есть не описывает смысла этой связи (см.<br />

[44], а также http://ru.wikipedia.org/wiki/Семантическая_сеть). Однако категории представляют<br />

однородную (один тип отношений – родо-видовые) бинарную (связаны два объекта) семантическую<br />

сеть. Иной подход предлагается в работе [54], где семантические элементы считаются семантически<br />

связанными, если они связаны отношением «ссылается». Семантическими элементами названы<br />

дидактические единицы контента, например «лекция», «определение», «теорема», «термин».<br />

2 См. определения авторитетных и хаб-страниц в главе 1 в подразделе «Алгоритм HITS» на стр. 27, см.<br />

также подраздел «Поиск синонимов с помощью HITS алгоритма» на стр. 74. Заметим, что слов хаб<br />

встречается в отечественной научной литературе, например, «термин-хаб» в работе [11].<br />

3 «Семантическими принято считать системы, в которых в процессе анализа содержания текста делаются<br />

попытки учесть не только лингвосемантические, но и логико-семантические отношения между<br />

языковыми объектами. Кроме того, контекст, определяющий лингвосемантические отношения и в<br />

обычных системах синтаксического анализа не выходящий за пределы предложения, в семантических<br />

системах распространяется на уровни дискурса и текста. Наконец, предполагается, что система<br />

семантического анализа должна учитывать как сведения о данной предметной области, так и её связи с<br />

внешним миром в целом» [30].

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!