Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
- 40 -<br />
L<strong>in</strong> [128] определил сходство объектов А и B как отношение количества<br />
информации, необходимой для описания сходства А и B, к количеству<br />
информации, полностью описывающей А и B. Для измерения сходства между<br />
словами L<strong>in</strong> учитывает частотное распределение слов в корпусе текстов<br />
(аналогично мере Резника): 2⋅log P c<br />
l<strong>in</strong> c 1,<br />
c 2<br />
=<br />
0<br />
<br />
log P c 1<br />
log P c 2<br />
<br />
, где c 0 –<br />
ближайший общий супер-класс в иерархии для обоих концептов c 1 и c 2 . P –<br />
вероятность концепта, вычисляемая на основе частоты появления концепта в<br />
корпусе. Отличается от формулы res способом нормализации, корректным<br />
вычислением l<strong>in</strong> (x, x) (не зависит от положения концепта х в иерархии),<br />
учитывает наличие и общих, и различающихся свойств у объектов [152].<br />
В работе [173] мера lesk, основанная на вычислении степени<br />
пересечения глосс концептов WordNet, была адаптирована к ВП (за глоссу<br />
авторы взяли первый абзац в статье ВП). Итак, сходство двух текстов t 1 , t 2<br />
вычисляется с двойной нормализацией (по длине текста и с помощью<br />
гиперболического тангенса) так:<br />
relate gloss /text<br />
t 1,<br />
t 2<br />
=tanh<br />
overlap t 1,<br />
t 2<br />
<br />
length t 1<br />
length t 2<br />
<br />
,<br />
overlap t 1,<br />
t 2<br />
=∑ m 2 , где пересекаются n фраз, m слов 1 .<br />
n<br />
В работе [139] (стр. 4) приведённая в таблице 1.2 формула l<strong>in</strong> была<br />
адаптирована к поиску в структуре GermaNet. В данной работе приведены<br />
две TF-IDF схемы для вычисления сходства между запросом и текстом<br />
документа.<br />
Глава о метриках была бы неполной без упоминания того, что кроме<br />
сходства, метрики позволяют вычислять степень различия объектов. Так<br />
например, в задачах кластеризации используются функции, определяющие<br />
степень различия 2 между документами. Если P – множество объектов,<br />
1 Закон Ципфа утверждает, что чем длиннее фраза, тем реже она встречается в корпусе. На основании<br />
этого, было предложено наличие общих фраз длиной в n слов (в глоссах сравниваемых слов) оценивать<br />
как n 2 [75].<br />
2 Любая функция оценки степени различия между документами D может быть преобразована в функцию,<br />
определяющую степень соответствия S следующим образом: S =1D −1 .