Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
- 28 -<br />
Алгоритм PageRank (отличия от алгоритма HITS)<br />
Параметр PageRank страницы p(i) (её авторитетность) определяется так [102]:<br />
pi= q N 1−q ∑<br />
j : j i<br />
p j<br />
k out<br />
j , i=1,2,... ,N (1.1)<br />
где N – общее число страниц; j→i обозначает гиперссылку от страницы j к<br />
странице i; K out (j) – это число исходящих ссылок страницы j; (1-q) –<br />
амортизирующий коэффициент (damp<strong>in</strong>g factor) 1 . Набор уравнений (1.1)<br />
решается итеративно.<br />
Оба алгоритма: PageRank и HITS предлагают общую идею<br />
итеративного вычисления авторитетных страниц, где авторитетность<br />
определяется наличием (количеством) и характером (степень авторитетности<br />
источника) ссылок. Однако есть и разница. Отличие алгоритма PageRank от<br />
алгоритма HITS в том, что у каждой страницы только один параметр,<br />
который соответствует её популярности, это вес PageRank. В алгоритме HITS<br />
каждой странице сопоставлено два параметра, которые определяют<br />
авторитетность и наличие ссылок на авторитетные страницы. Это<br />
соответственно параметры authority и hub. Отметим, что PageRank не требует<br />
дополнительных вычислительных затрат во время обработки запроса, HITS<br />
более дорогой с вычислительной точки зрения алгоритм.<br />
В работе [89] указывают на сходство результатов работы HITS и<br />
PageRank 2 . Большинство документов, полученных как авторитетные в HITS,<br />
были представлены в результатах PageRank, но упорядочены были по<br />
другому. Однако в другой работе [80] при поиске авторитетных страниц с<br />
помощью алгоритмов HITS и PageRank по всей Английской Википедии и по<br />
некоторым подмножествам страниц (например: People, Historical Events,<br />
сильные поисковые системы, на основе данных TREC. Поскольку результаты работы поисковиков могут<br />
быть неудачными, постольку веса могут быть отрицательными, поэтому авторы вводят понятие<br />
неавторитетности (unauthority) и выделяют тип вершин, ссылающихся на неавторитетные вершины<br />
(unhubness). Тогда «хаб-документ – это документ, содержащий много ссылок на неавторитетные<br />
вершины, причём ссылки имеют большой отрицательный вес» [136].<br />
1 О выборе амортизирующего коэффициента в алгоритме PageRank см. в работе [73].<br />
2 В работе [89] авторы используют в Байесовой сети доверия веса, рассчитанные с помощью HITS, для<br />
поиска релевантных документов. С помощью HITS посчитали четыре веса для каждого документа: hub и<br />
authority, локальные (по запросу), глобальные (по всем документам).