03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 26 -<br />

1.1 Основные алгоритмы поиска похожих интернет<br />

страниц, поиска слов близких по значению, вычисления<br />

меры сходства вершин графа<br />

Алгоритмы, выполняющие поиск похожих документов и близких по<br />

значению слов, можно условно 1 разделить на группы: 2<br />

1. поиск на основе анализа ссылок (вычисления на графах)<br />

i. ссылки заданы явно гиперссылками (HITS [125], PageRank [85],<br />

[102], ArcRank [174], Green [145], WLVM [134]);<br />

ii. ссылки нужно построить 3 (Similarity Flood<strong>in</strong>g [132], алгоритм<br />

извлечения синонимов из толкового словаря [84], [83], [174]);<br />

2. поиск на основе анализа текста:<br />

iii. статистические алгоритмы (ESA [103], сходство коротких<br />

текстов [159], извлечение контекстно связанных слов на основе<br />

частотности словосочетаний [146]);<br />

iv. автоматическое понимание текстов 4 ;<br />

3. поиск на основе анализа и ссылок и текста [81], [129] 5 .<br />

Для уточнения результатов поиска могут использоваться данные о<br />

семантически близких словах из тезаурусов Роже, WordNet, Moby,<br />

Викисловаря и др.<br />

Входными данными могут быть [106]:<br />

i. запрос, состоящий из ключевых слов, тогда будет выполняться поиск<br />

документов, похожих на запрос;<br />

1 Практическая реализация может объединять возможности разных подходов.<br />

2 См. также обзор и классификацию методов и приложений вычисления сходства коротких текстов в [147].<br />

3 Для определения силы связи между словами по совместной встречаемости в документах либо в общем<br />

контексте — могут использоваться специальные алгоритмы [40].<br />

4 На сегодняшний момент, автору не встретились работы, посвящённые поиску семантически близких<br />

слов с помощью систем автоматического понимания текстов (АПТ). О системах АПТ см. в [41].<br />

5 В работе [129] предложена мера вычисления семантического сходства интернет страниц на основе учёта<br />

и ссылок, и текста. Сходство текста вычисляется с помощью TF (формула косинусного коэффициента).<br />

Сходство ссылок вычисляется с помощью формулы «частота ссылок – обратная частота документов» (то<br />

есть в формуле TF-IDF документы оставили, а слова заменили на ссылки).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!