03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 10 -<br />

текстов 1 [43], [70], определение тематически однородных частей текста и<br />

приписывание этим частям документа тематических тегов [72], [104],<br />

реферирование текстов, и многие др. Автоматический поиск синонимов и<br />

семантически близких слов является одной из задач АОТ.<br />

Актуальность работы определяется возможными областями<br />

приложений результатов диссертации. Во-первых, это поиск похожих<br />

вершин графа в рамках задачи Ontology Match<strong>in</strong>g [132], [164], [190]. Вовторых,<br />

предложенное решение задачи автоматического поиска синонимов и<br />

семантически близких слов может использоваться в поисковых системах для<br />

расширения запроса (на основе вычисления сходства запроса и документа<br />

[86], сходства запросов между собой 2 [101], с помощью тезаурусов [10], [95],<br />

[163]), для автоматизированного построения онтологии по тексту 3 , для<br />

расширения существующих и создания новых тезаурусов 4 [135]. В-третьих,<br />

разработанная программа поиска семантически близких слов, вероятно,<br />

будет востребована лингвистами-лексикографами при составлении словарей<br />

синонимов [7], [56], [161]. В работе [79] перечислены ещё два приложения,<br />

требующих решения задачи «similarity search»:<br />

• «collaborative filter<strong>in</strong>g» – определение пользователей, имеющих<br />

одинаковый вкус, предпочтения;<br />

• поиск / исключение документов почти-копий (англ. «near<br />

duplicate»), которое требуется при индексировании документов.<br />

1 «Кластер-анализ – это способ группировки многомерных объектов, основанный на представлении<br />

результатов отдельных наблюдений точками подходящего геометрического пространства с<br />

последующим выделением групп как “сгустков” этих точек.» [43]. Кластер в англ. это «сгусток», «гроздь<br />

(винограда)», «скопление (звёзд)» и т.п. Неформально, кластер – это связный подграф с большим числом<br />

внутренних и небольшим числом внешних рёбер [165].<br />

2 В работе [79] указан вариант объединения двух задач: (1) уточнение поискового запроса и<br />

(2) определение сходства запросов между собой. Подход заключается в том, чтобы на основе сходства<br />

результатов (множеств найденных документов) находить похожие запросы. Тогда поисковая система<br />

сможет предложить пользователю альтернативные формулировки запроса.<br />

3 В работе [116] представлена схема извлечения концептов и отношений из текста с помощью эксперта<br />

(система T-Rex – The Tra<strong>in</strong>able Relation Extraction framework).<br />

4 Достоинство тезаурусов, построенных с помощью Википедии, как отмечают в работе [135] – это<br />

стоимость, постоянное расширение, то есть адекватность современному лексикону, многоязычность (то<br />

есть привязка к концепту слов на разных языках).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!