Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 36 -<br />
Рис. 1. Пример, иллюстрирующий разницу между мерами AI и AC. Значение AI в<br />
случаях (a) и (b) остаётся постоянным, но значение AC в случае (a) больше,<br />
поскольку в (b) больше вершин, не имеющих похожих вершин [146]<br />
Можно упомянуть ещё ряд статистических алгоритмов для вычисления<br />
семантической близости слов: LSA [100], PMI-IR [180].<br />
Метрики<br />
Выделяют несколько способов определения похожих документов 1 [53].<br />
Полагаем, что документы и запросы представляются с помощью индексных<br />
терминов или ключевых слов. Обозначим посредством символа |.| – размер<br />
множества ключевых слов, представляющих рассматриваемый документ.<br />
Простой коэффициент соответствия ∣X ∩Y ∣ показывает количество<br />
общих индексных терминов. При вычислении коэффициента не берутся в<br />
рассмотрение размеры множеств X и Y.<br />
Таблица 1.1<br />
Коэффициенты сходства для документов, для ключевых слов [53]<br />
Формула<br />
∣X ∩Y ∣<br />
∣X ∣∣Y ∣<br />
∣X ∩Y ∣<br />
∣X ∪Y ∣<br />
∣X ∩Y ∣<br />
∣X ∣ 1/ 2 ⋅∣Y ∣ 1/2<br />
Название<br />
Коэффициент Дайса (dice)<br />
Коэффициент Джаккарда (jaccard)<br />
Косинусный коэффициент<br />
1 Речь идёт о текстовых документах, а не о интернет страницах, то есть нет ссылок. Документам можно<br />
поставить в соответствие вершины графа. Если степени сходства документов сопоставить расстояние<br />
между вершинами, то более похожим документам будут соответствовать более близкие вершины.