03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 36 -<br />

Рис. 1. Пример, иллюстрирующий разницу между мерами AI и AC. Значение AI в<br />

случаях (a) и (b) остаётся постоянным, но значение AC в случае (a) больше,<br />

поскольку в (b) больше вершин, не имеющих похожих вершин [146]<br />

Можно упомянуть ещё ряд статистических алгоритмов для вычисления<br />

семантической близости слов: LSA [100], PMI-IR [180].<br />

Метрики<br />

Выделяют несколько способов определения похожих документов 1 [53].<br />

Полагаем, что документы и запросы представляются с помощью индексных<br />

терминов или ключевых слов. Обозначим посредством символа |.| – размер<br />

множества ключевых слов, представляющих рассматриваемый документ.<br />

Простой коэффициент соответствия ∣X ∩Y ∣ показывает количество<br />

общих индексных терминов. При вычислении коэффициента не берутся в<br />

рассмотрение размеры множеств X и Y.<br />

Таблица 1.1<br />

Коэффициенты сходства для документов, для ключевых слов [53]<br />

Формула<br />

∣X ∩Y ∣<br />

∣X ∣∣Y ∣<br />

∣X ∩Y ∣<br />

∣X ∪Y ∣<br />

∣X ∩Y ∣<br />

∣X ∣ 1/ 2 ⋅∣Y ∣ 1/2<br />

Название<br />

Коэффициент Дайса (dice)<br />

Коэффициент Джаккарда (jaccard)<br />

Косинусный коэффициент<br />

1 Речь идёт о текстовых документах, а не о интернет страницах, то есть нет ссылок. Документам можно<br />

поставить в соответствие вершины графа. Если степени сходства документов сопоставить расстояние<br />

между вершинами, то более похожим документам будут соответствовать более близкие вершины.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!