Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 26 -<br />
1.1 Основные алгоритмы поиска похожих интернет<br />
страниц, поиска слов близких по значению, вычисления<br />
меры сходства вершин графа<br />
Алгоритмы, выполняющие поиск похожих документов и близких по<br />
значению слов, можно условно 1 разделить на группы: 2<br />
1. поиск на основе анализа ссылок (вычисления на графах)<br />
i. ссылки заданы явно гиперссылками (HITS [125], PageRank [85],<br />
[102], ArcRank [174], Green [145], WLVM [134]);<br />
ii. ссылки нужно построить 3 (Similarity Flood<strong>in</strong>g [132], алгоритм<br />
извлечения синонимов из толкового словаря [84], [83], [174]);<br />
2. поиск на основе анализа текста:<br />
iii. статистические алгоритмы (ESA [103], сходство коротких<br />
текстов [159], извлечение контекстно связанных слов на основе<br />
частотности словосочетаний [146]);<br />
iv. автоматическое понимание текстов 4 ;<br />
3. поиск на основе анализа и ссылок и текста [81], [129] 5 .<br />
Для уточнения результатов поиска могут использоваться данные о<br />
семантически близких словах из тезаурусов Роже, WordNet, Moby,<br />
Викисловаря и др.<br />
Входными данными могут быть [106]:<br />
i. запрос, состоящий из ключевых слов, тогда будет выполняться поиск<br />
документов, похожих на запрос;<br />
1 Практическая реализация может объединять возможности разных подходов.<br />
2 См. также обзор и классификацию методов и приложений вычисления сходства коротких текстов в [147].<br />
3 Для определения силы связи между словами по совместной встречаемости в документах либо в общем<br />
контексте — могут использоваться специальные алгоритмы [40].<br />
4 На сегодняшний момент, автору не встретились работы, посвящённые поиску семантически близких<br />
слов с помощью систем автоматического понимания текстов (АПТ). О системах АПТ см. в [41].<br />
5 В работе [129] предложена мера вычисления семантического сходства интернет страниц на основе учёта<br />
и ссылок, и текста. Сходство текста вычисляется с помощью TF (формула косинусного коэффициента).<br />
Сходство ссылок вычисляется с помощью формулы «частота ссылок – обратная частота документов» (то<br />
есть в формуле TF-IDF документы оставили, а слова заменили на ссылки).