03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- 28 -<br />

Алгоритм PageRank (отличия от алгоритма HITS)<br />

Параметр PageRank страницы p(i) (её авторитетность) определяется так [102]:<br />

pi= q N 1−q ∑<br />

j : j i<br />

p j<br />

k out<br />

j , i=1,2,... ,N (1.1)<br />

где N – общее число страниц; j→i обозначает гиперссылку от страницы j к<br />

странице i; K out (j) – это число исходящих ссылок страницы j; (1-q) –<br />

амортизирующий коэффициент (damp<strong>in</strong>g factor) 1 . Набор уравнений (1.1)<br />

решается итеративно.<br />

Оба алгоритма: PageRank и HITS предлагают общую идею<br />

итеративного вычисления авторитетных страниц, где авторитетность<br />

определяется наличием (количеством) и характером (степень авторитетности<br />

источника) ссылок. Однако есть и разница. Отличие алгоритма PageRank от<br />

алгоритма HITS в том, что у каждой страницы только один параметр,<br />

который соответствует её популярности, это вес PageRank. В алгоритме HITS<br />

каждой странице сопоставлено два параметра, которые определяют<br />

авторитетность и наличие ссылок на авторитетные страницы. Это<br />

соответственно параметры authority и hub. Отметим, что PageRank не требует<br />

дополнительных вычислительных затрат во время обработки запроса, HITS<br />

более дорогой с вычислительной точки зрения алгоритм.<br />

В работе [89] указывают на сходство результатов работы HITS и<br />

PageRank 2 . Большинство документов, полученных как авторитетные в HITS,<br />

были представлены в результатах PageRank, но упорядочены были по<br />

другому. Однако в другой работе [80] при поиске авторитетных страниц с<br />

помощью алгоритмов HITS и PageRank по всей Английской Википедии и по<br />

некоторым подмножествам страниц (например: People, Historical Events,<br />

сильные поисковые системы, на основе данных TREC. Поскольку результаты работы поисковиков могут<br />

быть неудачными, постольку веса могут быть отрицательными, поэтому авторы вводят понятие<br />

неавторитетности (unauthority) и выделяют тип вершин, ссылающихся на неавторитетные вершины<br />

(unhubness). Тогда «хаб-документ – это документ, содержащий много ссылок на неавторитетные<br />

вершины, причём ссылки имеют большой отрицательный вес» [136].<br />

1 О выборе амортизирующего коэффициента в алгоритме PageRank см. в работе [73].<br />

2 В работе [89] авторы используют в Байесовой сети доверия веса, рассчитанные с помощью HITS, для<br />

поиска релевантных документов. С помощью HITS посчитали четыре веса для каждого документа: hub и<br />

authority, локальные (по запросу), глобальные (по всем документам).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!