03.11.2014 Views

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

Search for synonyms in Wikipedia - Science Library

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

- 34 -<br />

вес). Вычисления проводились на английском словаре Вебстера.<br />

Построенный граф содержал 112 169 вершин, 1 398 424 рёбер.<br />

Алгоритмы статистического анализа текста: ESA, поиск<br />

контекстно-связанных слов<br />

Алгоритм ESA<br />

В работе [103] авторы описали алгоритм ESA, позволяющий представить<br />

значение любого текста в терминах концептов ВП. 1 Оценка эффективности<br />

метода выполнена за счёт автоматического вычисления степени<br />

семантической связи между фрагментами текста произвольной длины на ЕЯ.<br />

Для ускорения работы построили инвертированный индекс: слову<br />

соответствует список концептов, в статьях которых оно появляется. Была<br />

выполнена предобработка концептов ВП:<br />

• удалили концепты, которым соответствуют небольшие статьи<br />

(меньше 100 слов, меньше 5 исходящих и входящих ссылок);<br />

• удалили стоп-слова и редкие слова;<br />

• получили леммы слов (тексты на английском языке).<br />

В алгоритме ESA на вход подаются два текста. По ним строятся два вектора<br />

из концептов ВП следующим образом. По фрагменту текста (1) строится<br />

вектор по TF-IDF схеме, (2) из инвертированного индекса выбираются<br />

концепты и объединяются во взвешенный вектор 2 . Произведение этих<br />

векторов и даёт вектор концептов ВП релевантных фрагменту текста. Для<br />

сравнения текстов сравнивают два вектора, например, с помощью<br />

косинусного коэффициента.<br />

Эксперименты в работе [103] показали преимущество ESA в точности<br />

поиска семантически близких слов в ВП по сравнению с алгоритмами поиска<br />

1 ESA – это аббревиатура от «Explicit Semantic Analysis» (явный семантический анализ). Название выбрано<br />

в противовес «скрытому семантическому анализу» (LSA), поскольку в ESA концепт – это название<br />

статьи. То есть концепты явные, формулируются человеком, легко объяснить их значение.<br />

2 Причём связь слова и концепта не указывается, если концепты получили небольшой вес для данного<br />

слова. Для вычисления взвешенного вектора используется параметр k – запись в инвертированном<br />

индексе, указывающая на степень связи слова и концепта. Из статьи [103] не ясно, как вычисляется эта<br />

степень связи слова и концепта, возможно, как (1) относительное число повторов слова в статье,<br />

(2) позиция в тексте (чем ближе к началу статьи, тем больше вес).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!