03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- 30 -<br />

Алгоритм WLVM<br />

Алгоритм векторной модели ссылок Википедии (англ. <strong>Wikipedia</strong> L<strong>in</strong>k Vector<br />

Model или WLVM) вычисляет сходство двух статей ВП на основе<br />

содержащихся в них ссылок [134]. Алгоритм включает шаги:<br />

1. по заданному термину получить все статьи ВП с похожими<br />

заголовками;<br />

2. обработать ссылки (разрешить «редиректы» 1 ; для ссылок на страницы<br />

«дизамбиги» 2 взять все ссылки, перечисленные на «дизамбигах»);<br />

3. подсчитать вес ссылок (см. ниже);<br />

4. построить вектор (исходящих) ссылок для каждой страницы;<br />

5. из множества пар статей (для двух терминов) выбираются наиболее<br />

похожие, то есть с наименьшим углом между векторами ссылок.<br />

Семантическое сходство двух страниц ВП определяется углом между<br />

векторами ссылок этих страниц. Сходство будет выше, если обе страницы<br />

ссылаются на страницу, на которую мало ссылаются другие страницы.<br />

Вес ссылки с исходного документа на целевой определяется по правилам:<br />

• 1 или 0, если есть или нет такая ссылка в исходном документе;<br />

• обратно пропорционально общему числу ссылок на целевой<br />

документ.<br />

А именно, вес ссылки w со страницы a на страницу b рассчитывается по<br />

t<br />

формуле: w a b=∣ab∣⋅log∑<br />

∣x b∣<br />

t<br />

x=1<br />

, где t — общее число страниц в ВП.<br />

Для оценки алгоритма использовался тестовый набор 353-TC. 3 Была<br />

предпринята малоуспешная попытка автоматически выбирать верное<br />

значение для ссылок на многозначные статьи: коэффициент корреляции<br />

Спирмена с эталонным набором оказался равным 0.45, при разрешении<br />

1 «Редирект» – это страница-перенаправление; «разрешить редирект» означает подменить ссылки x→y→z<br />

на x→z, спрямляя путь до целевой статьи.<br />

2 «Дизамбиги» – статьи Википедии, содержащие перечисление значений. Создаются для многозначных<br />

терминов, см., например, статью «Лемма».<br />

3 Тестовый набор подробно описан на стр. 127. Сравнение результатов работы алгоритма WLVM с<br />

другими см. в табл. 4.6 на стр. 130.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!