Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 10 -<br />
текстов 1 [43], [70], определение тематически однородных частей текста и<br />
приписывание этим частям документа тематических тегов [72], [104],<br />
реферирование текстов, и многие др. Автоматический поиск синонимов и<br />
семантически близких слов является одной из задач АОТ.<br />
Актуальность работы определяется возможными областями<br />
приложений результатов диссертации. Во-первых, это поиск похожих<br />
вершин графа в рамках задачи Ontology Match<strong>in</strong>g [132], [164], [190]. Вовторых,<br />
предложенное решение задачи автоматического поиска синонимов и<br />
семантически близких слов может использоваться в поисковых системах для<br />
расширения запроса (на основе вычисления сходства запроса и документа<br />
[86], сходства запросов между собой 2 [101], с помощью тезаурусов [10], [95],<br />
[163]), для автоматизированного построения онтологии по тексту 3 , для<br />
расширения существующих и создания новых тезаурусов 4 [135]. В-третьих,<br />
разработанная программа поиска семантически близких слов, вероятно,<br />
будет востребована лингвистами-лексикографами при составлении словарей<br />
синонимов [7], [56], [161]. В работе [79] перечислены ещё два приложения,<br />
требующих решения задачи «similarity search»:<br />
• «collaborative filter<strong>in</strong>g» – определение пользователей, имеющих<br />
одинаковый вкус, предпочтения;<br />
• поиск / исключение документов почти-копий (англ. «near<br />
duplicate»), которое требуется при индексировании документов.<br />
1 «Кластер-анализ – это способ группировки многомерных объектов, основанный на представлении<br />
результатов отдельных наблюдений точками подходящего геометрического пространства с<br />
последующим выделением групп как “сгустков” этих точек.» [43]. Кластер в англ. это «сгусток», «гроздь<br />
(винограда)», «скопление (звёзд)» и т.п. Неформально, кластер – это связный подграф с большим числом<br />
внутренних и небольшим числом внешних рёбер [165].<br />
2 В работе [79] указан вариант объединения двух задач: (1) уточнение поискового запроса и<br />
(2) определение сходства запросов между собой. Подход заключается в том, чтобы на основе сходства<br />
результатов (множеств найденных документов) находить похожие запросы. Тогда поисковая система<br />
сможет предложить пользователю альтернативные формулировки запроса.<br />
3 В работе [116] представлена схема извлечения концептов и отношений из текста с помощью эксперта<br />
(система T-Rex – The Tra<strong>in</strong>able Relation Extraction framework).<br />
4 Достоинство тезаурусов, построенных с помощью Википедии, как отмечают в работе [135] – это<br />
стоимость, постоянное расширение, то есть адекватность современному лексикону, многоязычность (то<br />
есть привязка к концепту слов на разных языках).