Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
Search for synonyms in Wikipedia - Science Library
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
- 38 -<br />
3. Учёт частотности слов и расстояния в таксономии<br />
res c 1,<br />
c 2<br />
=max C ∈S c 1, c 2 <br />
[−logP C ] Расстояние res [151], [152]<br />
2∗log P c<br />
l<strong>in</strong> c 1,<br />
c 2<br />
=<br />
0<br />
<br />
log P c 1<br />
log P c 2<br />
<br />
Расстояние l<strong>in</strong> 1 [128]<br />
4. Учёт пересечения текста<br />
пересечение текста (глоссы WordNet) Lesk, 1986 [74]<br />
extended gloss overlap – пересечение глосс с учётом глосс<br />
соседних концептов WordNet<br />
relate gloss /text<br />
t 1,<br />
t 2<br />
=tanh<br />
overlap t 1,<br />
t 2<br />
<br />
length t 1<br />
length t 2<br />
<br />
Banerjee & Pedersen, 2003<br />
[75]<br />
[173]<br />
Расстояние Google – это мера семантической связности, вычисленная на<br />
основе числа страниц, полученных с помощью поисковика Google для<br />
заданного набора ключевых слов. В таблице приведена формула вычисления<br />
нормализованного расстояния Google (NGD) для двух слов: x и y, где М – это<br />
общее число веб-страниц, проиндексированных Google; f(x) и f(y) – число<br />
страниц, содержащих ключевые слова x и y, соответственно; f(x, y) – число<br />
страниц, содержащих сразу и x, и y. Если x и y на всех страницах встречаются<br />
вместе, то полагают NGD=0, если только по отдельности, то NGD=∞.<br />
Выделим класс метрик, вычисляющих сходство на основе данных<br />
таксономии (табл. 1.2). Данные метрики используются для вычисления<br />
сходства концептов WordNet [74], [99], [128], [151], [152], [186],<br />
GermaNet [139], ВП [173].<br />
В книге [99] Leacock и Chodorov предложили вычислять близость<br />
концептов как расстояние между концептами в таксономии,<br />
нормализованное за счёт учёта глубины таксономии. В формуле<br />
lch c 1,<br />
c 2<br />
=−log length c 1,c 2<br />
<br />
2D<br />
, функция length(c 1 , c 2 ) – это число вершин<br />
вдоль кратчайшего пути между вершинами c 1 и c 2 ; D – максимальная глубина<br />
таксономии. В работе [99] авторы рассмотрели только одно отношение is-a и<br />
только между существительными.<br />
1 Данная метрика получила развитие в работе [146], см. метод извлечения контекстно связанных слов,<br />
стр. 35.