03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

- 38 -<br />

3. Учёт частотности слов и расстояния в таксономии<br />

res c 1,<br />

c 2<br />

=max C ∈S c 1, c 2 <br />

[−logP C ] Расстояние res [151], [152]<br />

2∗log P c<br />

l<strong>in</strong> c 1,<br />

c 2<br />

=<br />

0<br />

<br />

log P c 1<br />

log P c 2<br />

<br />

Расстояние l<strong>in</strong> 1 [128]<br />

4. Учёт пересечения текста<br />

пересечение текста (глоссы WordNet) Lesk, 1986 [74]<br />

extended gloss overlap – пересечение глосс с учётом глосс<br />

соседних концептов WordNet<br />

relate gloss /text<br />

t 1,<br />

t 2<br />

=tanh<br />

overlap t 1,<br />

t 2<br />

<br />

length t 1<br />

length t 2<br />

<br />

Banerjee & Pedersen, 2003<br />

[75]<br />

[173]<br />

Расстояние Google – это мера семантической связности, вычисленная на<br />

основе числа страниц, полученных с помощью поисковика Google для<br />

заданного набора ключевых слов. В таблице приведена формула вычисления<br />

нормализованного расстояния Google (NGD) для двух слов: x и y, где М – это<br />

общее число веб-страниц, проиндексированных Google; f(x) и f(y) – число<br />

страниц, содержащих ключевые слова x и y, соответственно; f(x, y) – число<br />

страниц, содержащих сразу и x, и y. Если x и y на всех страницах встречаются<br />

вместе, то полагают NGD=0, если только по отдельности, то NGD=∞.<br />

Выделим класс метрик, вычисляющих сходство на основе данных<br />

таксономии (табл. 1.2). Данные метрики используются для вычисления<br />

сходства концептов WordNet [74], [99], [128], [151], [152], [186],<br />

GermaNet [139], ВП [173].<br />

В книге [99] Leacock и Chodorov предложили вычислять близость<br />

концептов как расстояние между концептами в таксономии,<br />

нормализованное за счёт учёта глубины таксономии. В формуле<br />

lch c 1,<br />

c 2<br />

=−log length c 1,c 2<br />

<br />

2D<br />

, функция length(c 1 , c 2 ) – это число вершин<br />

вдоль кратчайшего пути между вершинами c 1 и c 2 ; D – максимальная глубина<br />

таксономии. В работе [99] авторы рассмотрели только одно отношение is-a и<br />

только между существительными.<br />

1 Данная метрика получила развитие в работе [146], см. метод извлечения контекстно связанных слов,<br />

стр. 35.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!