03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 40 -<br />

L<strong>in</strong> [128] определил сходство объектов А и B как отношение количества<br />

информации, необходимой для описания сходства А и B, к количеству<br />

информации, полностью описывающей А и B. Для измерения сходства между<br />

словами L<strong>in</strong> учитывает частотное распределение слов в корпусе текстов<br />

(аналогично мере Резника): 2⋅log P c<br />

l<strong>in</strong> c 1,<br />

c 2<br />

=<br />

0<br />

<br />

log P c 1<br />

log P c 2<br />

<br />

, где c 0 –<br />

ближайший общий супер-класс в иерархии для обоих концептов c 1 и c 2 . P –<br />

вероятность концепта, вычисляемая на основе частоты появления концепта в<br />

корпусе. Отличается от формулы res способом нормализации, корректным<br />

вычислением l<strong>in</strong> (x, x) (не зависит от положения концепта х в иерархии),<br />

учитывает наличие и общих, и различающихся свойств у объектов [152].<br />

В работе [173] мера lesk, основанная на вычислении степени<br />

пересечения глосс концептов WordNet, была адаптирована к ВП (за глоссу<br />

авторы взяли первый абзац в статье ВП). Итак, сходство двух текстов t 1 , t 2<br />

вычисляется с двойной нормализацией (по длине текста и с помощью<br />

гиперболического тангенса) так:<br />

relate gloss /text<br />

t 1,<br />

t 2<br />

=tanh<br />

overlap t 1,<br />

t 2<br />

<br />

length t 1<br />

length t 2<br />

<br />

,<br />

overlap t 1,<br />

t 2<br />

=∑ m 2 , где пересекаются n фраз, m слов 1 .<br />

n<br />

В работе [139] (стр. 4) приведённая в таблице 1.2 формула l<strong>in</strong> была<br />

адаптирована к поиску в структуре GermaNet. В данной работе приведены<br />

две TF-IDF схемы для вычисления сходства между запросом и текстом<br />

документа.<br />

Глава о метриках была бы неполной без упоминания того, что кроме<br />

сходства, метрики позволяют вычислять степень различия объектов. Так<br />

например, в задачах кластеризации используются функции, определяющие<br />

степень различия 2 между документами. Если P – множество объектов,<br />

1 Закон Ципфа утверждает, что чем длиннее фраза, тем реже она встречается в корпусе. На основании<br />

этого, было предложено наличие общих фраз длиной в n слов (в глоссах сравниваемых слов) оценивать<br />

как n 2 [75].<br />

2 Любая функция оценки степени различия между документами D может быть преобразована в функцию,<br />

определяющую степень соответствия S следующим образом: S =1D −1 .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!