Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
- 30 -<br />
Алгоритм WLVM<br />
Алгоритм векторной модели ссылок Википедии (англ. <strong>Wikipedia</strong> L<strong>in</strong>k Vector<br />
Model или WLVM) вычисляет сходство двух статей ВП на основе<br />
содержащихся в них ссылок [134]. Алгоритм включает шаги:<br />
1. по заданному термину получить все статьи ВП с похожими<br />
заголовками;<br />
2. обработать ссылки (разрешить «редиректы» 1 ; для ссылок на страницы<br />
«дизамбиги» 2 взять все ссылки, перечисленные на «дизамбигах»);<br />
3. подсчитать вес ссылок (см. ниже);<br />
4. построить вектор (исходящих) ссылок для каждой страницы;<br />
5. из множества пар статей (для двух терминов) выбираются наиболее<br />
похожие, то есть с наименьшим углом между векторами ссылок.<br />
Семантическое сходство двух страниц ВП определяется углом между<br />
векторами ссылок этих страниц. Сходство будет выше, если обе страницы<br />
ссылаются на страницу, на которую мало ссылаются другие страницы.<br />
Вес ссылки с исходного документа на целевой определяется по правилам:<br />
• 1 или 0, если есть или нет такая ссылка в исходном документе;<br />
• обратно пропорционально общему числу ссылок на целевой<br />
документ.<br />
А именно, вес ссылки w со страницы a на страницу b рассчитывается по<br />
t<br />
формуле: w a b=∣ab∣⋅log∑<br />
∣x b∣<br />
t<br />
x=1<br />
, где t — общее число страниц в ВП.<br />
Для оценки алгоритма использовался тестовый набор 353-TC. 3 Была<br />
предпринята малоуспешная попытка автоматически выбирать верное<br />
значение для ссылок на многозначные статьи: коэффициент корреляции<br />
Спирмена с эталонным набором оказался равным 0.45, при разрешении<br />
1 «Редирект» – это страница-перенаправление; «разрешить редирект» означает подменить ссылки x→y→z<br />
на x→z, спрямляя путь до целевой статьи.<br />
2 «Дизамбиги» – статьи Википедии, содержащие перечисление значений. Создаются для многозначных<br />
терминов, см., например, статью «Лемма».<br />
3 Тестовый набор подробно описан на стр. 127. Сравнение результатов работы алгоритма WLVM с<br />
другими см. в табл. 4.6 на стр. 130.